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这 本 教材 非常 必要 ， 对 于 想 要 建立 机 器 学 习 的 数学 基础 的 读者 来 说 ， 它 同时 兼 具 深度 和 广度 ， 
内 容 严 谨 、 直 观 而 敏锐 。 本 书 提供 了 让 富 的 算法 和 分 析 技 巧 ， 经 典 而 基础 还 指出 了 最 前 洪 的 研究 
方向 o- 机 器 字 习 是 一 项 重要 而 述 人 的 领域 对 于 任何 对 其 数学 及 计算 基础 感 兴趣 的 人 来 说 ， 这 都 是 
一 本 极 佳 的 书 。 
一 一 Sob i + MU} ( Avrim Blum) ， 卡 内 基 -- 梅 降 大 学 


机 器 学 习 是 计算 机 科学 中 发 展 最 快 的 领域 之 一 ， 实 际 应 用 广泛 2 这 本 教材 的 目标 是 从 理论 角度 提供 机 
器 学 习 的 六 门 知识 和 相关 算法 范式 5 本 书 全 面 地 介绍 了 机 器 学 习 背 后 的 基本 思想 和 理论 依据 ， 以 及 将 这 些 
理论 转化 为 实际 算法 的 数学 推导 = -在 介绍 了 机 器 学 习 的 基本 内 容 后 ,本 书 还 覆盖 了 此 前 的 教材 中 一 系列 从 
未 涉及 过 的 内 容 s。- 其 中 包括 对 学 习 的 计算 复杂 度 、 凸 性 和 稳定 性 的 概念 的 讨论 ， 以 及 重要 的 算法 范式 的 介 
绍 -(- 包 括 随机 梯度 下 降 、 神 经 元 网 络 以 及 结构 化 输出 学 习 ) 。 同 时 ， 本 书 引 入 了 最 新 的 理论 概念 ， 包 括 
PAC- 贝 叶 斯 方法 和 压缩 界 。 本 书 为 高 等 院 校本 科 高 年 级 和 研究 生 入 门 阶段 而 设计 ， 不 仅 计算 机 、 电 子 工 
程 、 数 学 统计 专业 学 生 能 轻松 理解 机 器 学 习 的 基础 知识 和 算法 ， 其 他 专业 的 读者 也 能 读 懂 。 
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文艺 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 
的 名 个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 
间 名 家 辈出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ,美国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 、 
计算 机 学 科 中 的 许多 泰山 此 汪 同 时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 车 
作 ， 不 仅 豆 划 了 研究 的 开 晴 ， 还 揭示 了 学 术 的 源 变 、 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 


其 价值 并 不 宇 因 年 月 的 流逝 而 减退 ， 
YEN. AEA PRY EL 大潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 


日 益 迫 切 。 这 对 计算 桩 狂 育 界 和 各 出 版 界 都 既是 机 记 。 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 
战略 上 显得 举足轻重 。 在 我 国信 息 技 术 发 展 时 间 和 较 短 的 现状 下 美国 等 发 达 国 家 在 其 计算 
机 科学 发 展 的 几 十 年 间 积 证 和 发 展 的 经 由 教材 仍 有 许多 值得 倩 鉴 之 处 。 因 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接 
轨 、 建 设 真 正 的 世界 一 流 大 学 的 必由之路 

机 械 工 业 出 版 社 华 意 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 月 1998 年 开始 ， 我 们 就 
将 工作 重点 放 在 了 和 渤 选 、 移 详 国 外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw- Hill, Elsevier, MIT. John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 
良好 的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 旺 选 出 Andrew S. Tanenbaum, Bjarne 
Stroustrup. Brian W. Kernighan. Dennis Ritchi. Jim Gray. Afred V. Aho, John E. 
Hopcroft, Jeffrey D. Ullman, Abraham Silber schatz. William Stallings, Donald E. Knuth, 
John L. Hennessy. Larry L. Peterson EAK ii % 321 FALE th. A “SPELL BE AAR” 
为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ,也 正体 现 了 这 套 从 书 的 品位 
和 格调 。 

“计算 机 科学 从 书 ” 的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 相助 ， 国 内 的 专家 不 仅 提供 了 
中 肯 的 选 题 指导 ， 还 不 秤 秀吉 地 担任 了 翻 详 和 审 校 的 工作 ;而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 
两 百 个 品种 ， 这 些 书 籍 在 读者 中 树立 了 有 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原 版 书库 ”作为 哮 洒 iw 也 钼 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 注 的 泽 省 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因 素 使 我 们 
的 图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐 
渐 深 化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 和 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 
善 尽 美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢迎 老师 和 读者 
对 我 们 的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www. hzbook. com = 
电子 邮件 : hzjsj@hzbook. com : 
联系 电话 : (010)88379604 = 
联系 地 址 ;北京 市 西城 区 百 万 庄 南 街 ] 号 华章 教育 


POR: 100037 华章 科技 图 书 出 版 中 心 
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Understanding Machine Learning: From Theory to Algorithms 


以 色 列 希 伯 来 大 学 副教授 Shai Shalev-Shwartz 和 加 拿 大 滑铁卢 大 学 教授 Shai Ben-Da- 
vid 的 专著 《Understanding Machine Learning: From Theory to Algorithms》 是 机 需 学 习 领 
域 一 部 具有 里 程 碑 意义 的 著作 。 

近 几 年 ， 机 器 学 习 是 人 工 智 能 研究 领域 中 最 活跃 的 分 支 之 一 ， 已 成 为 信息 科学 领域 解 
决 实际 问题 的 重要 方法 ， 它 的 应 用 已 遍及 人 工 智 能 的 各 个 应 用 领域 。 机 融 学 习 又 是 一 个 多 
学 科 的 交叉 领域 ， 涉 及 数学 、 自 动 化 、 计 算 机 科学 、 应 用 心理 学 、 生 物 学 和 神经 生理 学 
等 。 这 种 学 科 交 叉 融 合 带 来 的 良性 互动 ， 无 疑 促 进 了 包括 机 器 学 习 在 内 的 诸 学 科 的 发 展 与 
ZR 
本 书 内 容 十 分 丰富 ， 作 者 以 前 所 未 有 的 广度 和 深度 ， 介 绍 了 目前 机 硕 学 习 中 重要 的 理 
论 和 关键 的 算法 。 本 书 没 有 陷 人 “科普 ” 式 的 堆砌 材料 的 写作 方式 ， 由 于 作者 是 该 领域 的 
权威 专家 ， 因 此 在 介绍 各 种 理论 和 算法 时 ， 时 刻 不 忘 将 不 同 理论 、 算 法 的 对 比 与 作者 自身 
的 研究 成 果 传授 给 读者 ， 使 读者 不 至 于 对 如 此 丰富 的 理论 和 算法 无 所 适 从 。 另 外， 特别 值 
得 指出 的 是 ， 本 书 第 一 部 分 非常 有 特色 ， 也 是 非常 重要 的 一 部 分 。 这 部 分 内 容 从 更 高 的 观 
点 和 更 深 的 层次 探讨 机 器 学 习 的 许多 理论 基础 ， 引 入 对 指导 理论 研究 和 实际 应 用 都 至 关 重 
要 的 概率 近似 正确 (Probably Approximately Correct，PAC) 学 习 理 论 。 该 理论 旨 在 回答 由 
机 需 学 习 得 到 的 结果 到 底 有 多 高 的 可 信和 度 与 推广 能 力 ， 从 茶 种 意义 上 来 说 ， 只 有 懂得 了 该 
部 分 ， 才 可 能 透彻 地 理解 和 更 好 地 运用 其 他 章节 的 内 容 。 国 内 关于 PAC 学 习 的 资料 非常 
少 ， 在 翻译 过 程 中 团队 成 员 碰 到 了 极 大 的 困难 ， 我 们 人 工 智 能 与 机 器 学 习 人 研究 团 队 为 此 进 
行 了 多 方 论 证 并 多 次 召开 专题 讨论 会 。 

本 书 主要 面 辐 人工 智能 、 机 需 学 习 、 模 式 识 别 、 数 据 挖 掘 、 计 算 机 应 用 、 生 物 信 息 
学 、 数 学 和 统计 学 等 领域 的 研究 生 和 相关 领域 的 科技 人 员 。 翻 译 出 版 中 译本 的 目的 ， 是 希 
望 能 为 国内 广大 从 事 相 关 人 研究 的 学 者 和 研究 生 提供 一 本 全 面 、 系 统 、 权 威 的 教科 书 和 参考 
书 。 如 来 能 做 到 这 一 点 ， 译 者 将 感到 十 分 欣慰 。 

必须 说 明 的 是 ， 本 书 的 翻译 是 中 国 科 学 院 自 动 化 研究 所 人 工 智 能 与 机 器 学 习 研 究 团 队 
集体 努力 的 结果 ， 团 队 的 成 员 杨 雪 冰 、 匡 秋明 、 蒋 晓 娟 、 薛 伟 、 魏 波 、 李 思 园 、 张 似 衡 、 
HJE, TER, ES. FR. BTE, HA, KRE, EKE, KAEA, mE, K 
英 华 、 李 悟 、 李 硕 等 参与 了 本 书 的 翻译 工作 ， 李 思 园 老师 参与 了 全 书 的 审 校 与 修正 。 感 谢 
机 械 工 业 出 版 社 华章 分 社 的 大 力 协 助 ， 倘 若 没 有 他 们 的 热情 支持 ， 本 书 的 中 译 版 难以 如 此 
迅速 地 与 大 家 见面 。 另 外 ， 本 书 的 翻译 得 到 了 国家 自然 科学 基金 委 重 点 项 目 和 面 上 项 目 
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“机 器 学 习 ” 旨 在 从 数据 中 自动 识别 有 意义 的 模式 。 过 去 几 十 年 中 ， 机 硕 学 习 成 为 一 
项 常用 工具 ， 几 乎 所 有 需要 从 大 量 数据 集合 中 提取 信息 的 任务 都 在 使 用 它 。 我 们 身边 的 许 
多 技术 都 以 机 器 学 习 为 基础 : 搜索 引擎 学 习 在 带 给 我 们 最 佳 的 搜索 结果 的 同时 ， 植 入 可 以 
AAR E; 屏蔽 软件 学 习 过 滤 垃 圾 邮件 ; 用 于 保护 信用 卡 业务 的 软件 学 习 识 别 欺 诈 。 数 
码 相 机 学 习 人 脸 识别 ， 智 能 电话 上 的 个 人 智能 助手 学 习 识别 语音 命令 。 汽 车 配备 了 用 机 器 
学 习 算 法 搭建 的 交通 事故 预警 系统 。 同 时 机 需 学 习 还 被 广泛 应 用 于 各 个 科学 领域 ， 例 如 生 
物 信 息 学 、 医 药 以 及 天 文学 等 。 

这 些 应 用 领域 的 一 个 共同 特点 在 于 ， 与 相对 传统 的 计算 机 应 用 相 比 ， 所 需 识 别 的 模式 
更 复杂 。 在 这 些 情景 中 ， 对 于 任务 应 该 如 何 执 行 ， 人 类 程序 员 无 法 提供 明确 的 、 细 市 优化 
的 具体 指令 。 以 智能 生物 为 例 ， 我 们 人 类 的 许多 技能 都 是 通过 从 经 验 中 学 习 而 取得 并 逐步 
提高 的 (而 非 遵 从 别人 给 我 们 的 具体 指令 )。 机 融 学 习 工 具 关注 的 正 是 赋予 程序 “学 习 ” 和 
适应 不 同情 况 的 能 力 。 

本 书 的 第 一 个 目标 是 ， 提 供 一 个 准确 而 简明 易 懂 的 导论 ， 介 绍 机 器 学 习 的 基本 概念 : 
什么 是 学 习 ? 机 器 怎样 学 习 ? 学 习 某 概念 时 ， 如 何 量化 所 需 资源 ? 学 习 始 终 都 是 可 能 的 
吗 ? 我 们 如 何 知道 学 习 过 程 是 成 功 或 失败 ? 

本 书 的 第 二 个 目标 是 ， 为 机 器 学 习 提 供 几 个 关键 的 算法 。 我 们 提供 的 算法 ， 一 方面 已 
经 成 功 投 入 实际 应 用 ， 男 一 方面 广泛 地 考虑 到 不 同 的 学 习 技 术 。 此 外 ,我 们 特别 将 注意 力 
放 到 了 大 规模 学 习 ( 即 俗称 的 “大 数据 ”) 上 ， 因 为 近 几 年 来 ， 世 界 越 来 越 “ 数 字 化 ”， 需 要 
学 习 的 数据 总 量 也 在 急剧 增加 。 所 以 在 许多 应 用 中 ， 数 据 量 是 充足 的 ， 而 计算 时 间 是 主要 
瓶颈 。 因 此 ， 学 习 某 一 概念 时 ， 我 们 会 明确 量化 数据 量 和 计算 时 间 这 两 个 数值 。 

本 书 分 为 四 部 分 。 第 一 部 分 对 于 “学 习 ” 的 基础 性 问题 给 出 初步 而 准确 的 定义 。 我 们 
会 介绍 Valiant 提出 的 “概率 近似 正确 (PAC)” 可 学 习 模 型 的 通用 形式 ， 它 将 是 对 “ 何 为 
学 习 ” 这 一 问题 的 第 一 个 有 力 回 答 。 我 们 还 会 介绍 “经 验 风 险 最 小 化 (ERM)”“ 结 构 风 险 
最 小 化 (SRM)” 和 “最 小 描述 长 度 (MDL)” 这 几 个 学 习 规 则 ， 展 现 “ 机 器 是 如 何 学 习 
的 ”。 我 们 量化 使 用 ERM, SRM 和 MDL 规则 学 习 时 所 需 的 数据 总 量 ， 并 用 “没有 免费 的 
午餐 ”定理 说 明 ， 什 么 情况 下 学 习 可 能 会 失败 。 此 外 ， 我 们 还 探讨 了 学 习 需 要 多 少 计算 时 
间 。 本 书 第 二 部 分 介绍 多 种 算法 。 对 于 一 些 算 法 ， 我 们 先 说 明 其 主要 学 习 原 则 ， 再 介绍 该 
算法 是 如 何 依据 其 原则 运作 的 。 前 两 部 分 将 重点 放 在 PAC 模型 上 ， 第 三 部 分 将 范围 扩展 
到 更 广 、 更 丰富 的 学 习 模型 。 最 后 ， 第 四 部 分 讨论 最 前 沿 的 理论 。 

我 们 尽量 让 本 书 能 够 自 成 一 体 ， 不 过 我 们 假设 读者 熟悉 概率 论 、 线 性 代数 、 数 学 分 析 
和 算法 设计 的 基本 概念 。 前 三 部 分 为 计算 机 科学 、 工 程 学 、 数 学 和 统计 学 研究 生 一 年 级 学 
生 设 计 ， 具 有 相关 背景 的 本 科 生 也 可 以 使 用 。 高 级 章节 适用 于 想 要 对 理论 有 更 深入 理解 的 
研究 者 。 
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Understanding Machine Learning: From Theory to Algorithms 


引 论 





本 书 的 主题 是 “自动 学 习 ”， 后 文中 我 们 更 经 常 称 之 为 “机 器 学 习 "。 机 融 学 习 的 含义 
是 ， 希 望 通过 对 计算 机 编程 ， 使 它 能 够 根据 已 有 的 输入 数据 进行 学 习 。 粗 略 地 说， 学 习 征 
一 个 将 经 验 转化 为 专业 技能 或 知识 的 过 程 。 输 入 学 习 算法 的 是 代表 经 验 的 训练 数据 ， 而 输 
出 的 则 是 知识 。 这 种 知识 通常 以 一 种 可 以 被 其 他 计算 机 程序 执行 任务 时 所 用 的 形式 存在 。 
为 寻求 这 一 概念 的 形式 化 数学 解释 ， 我 们 必须 更 明确 地 了 解 其 中 涉及 的 每 个 术语 的 准确 含 
义 : 程序 获取 的 训练 数据 是 什么 ?学习 过 程 是 如 何 自动 进行 的 ? 如 何 评价 这 一 学 习 过 程 的 
成 败 ( 即 学 习 程序 输出 结 采 的 质量 )? 


1. 1 什么 是 学 习 

我 们 首先 来 看 几 个 存在 于 大 自然 的 动物 学 习 的 例子 。 从 这 些 熟 悉 的 例子 中 可 以 看 出 ， 
机 器 学 习 的 一 些 基 本 问题 也 存在 于 目 然 界 。 

KAE BRS DRE: 当 老 鼠 遇 到 有 新 络 外 观 或 气味 的 食物 时 ， 它 们 首先 
会 少量 进食 ， 随 后 的 进食 量 将 取决 于 事物 本 身 的 风味 及 其 生理 作用 。 如 采 产 生 不 展 反 应 ， 
那么 新 的 食物 往往 会 与 这 种 不 良 后 果 相 关联 ， 随 之 ， 老鼠 不 再 进食 这 种 食物 。 很 显然 ， 这 
里 有 一 个 学 习 机 制 在 起 作用 一 一 动物 通过 经 验 来 获取 判断 食物 安全 性 的 技能 。 如 果 对 一 种 
食物 过 去 的 经 验 是 负 标 记 的 ， 那 么 动物 会 预测 在 未 来 遇 到 它 时 也 会 产生 负面 影响 。 

前 文 的 示例 解释 了 什么 是 学 习 成 功 ， 下 面 我 们 再 举例 说 明 什 么 是 典型 的 机 融 学 习 任 
务 。 假 设 我 们 想 对 一 人 台 机 器 进行 编程 ， 使 其 学 会 如 何 过 滤 垃 圾 邮件 。 一 个 最 简单 的 解决 方 
案 是 仿照 老鼠 学 习 躲 避 毒 饵 的 过 程 。 机 融 只 须 记 住所 有 以 前 被 用 户 标 记 为 垃圾 的 邮件 。 当 
一 封 新 邮件 到 达 时 ， 机 融 将 在 先前 垃圾 邮件 库 中 进行 搜索 。 如 有 果 匹 配 其 中 之 一 ， 它 会 被 丢 
弃 。 否 则 ， 它 将 被 移动 到 用 户 的 收 件 箱 文件 夹 。 

虽然 上 述 “ 通 过 记忆 进行 学 习 ” 的 方法 时 常 是 有 用 的 ， 但 是 它 缺 乏 一 个 学 习 系 统 的 重 
要 特性 一 一 标记 未 见 邮件 的 能 力 。 一 个 成 功 的 学 习 需 应 该 能 够 从 个 别 例子 进行 泛 化 ， 这 也 
称 为 归纳 推理 。 在 前 面 提 到 的 “性 饵 效应 ”例子 中 ,老鼠 遇 到 一 种 特定 类 型 的 食物 后 ， 它 
们 会 对 新 的 、 没 见 过 的 、 有 相似 气味 和 口味 的 食物 采取 同样 的 态度 。 为 了 实现 垃圾 邮件 过 
滤 任 务 的 泛 化 ， 学 习 需 可 以 扫描 以 前 见 过 的 电子 邮件 ， 并 提取 那些 垃圾 邮件 的 指示 性 的 词 
R: 然后 ， 当 新 电子 邮件 到 达 时 ， 这 人 台 机 器 可 以 检查 它 是 否 含有 可 疑 的 单词 ， 并 相应 地 预 
测 它 的 标签 。 这 种 系统 应 该 有 能 力 正 确 预 测 未 见 电子 邮件 的 标签 。 

但 是 ， 归 纳 推理 有 可 能 推导 出 错误 的 结论 。 为 了 说 明 这 一 点 ， 我 们 再 来 思考 一 个 动物 
学 习 的 例子 。 

鸽子 迷信 : 心理 学 家 B. F. Skinner 进行 过 一 项 实验 ， 他 在 笼子 里 放 了 一 群 饥饿 的 钢 
于。 索 子 上 附加 了 一 个 目 动 装置 ， 不 管 铅 子 当时 处 于 什么 行为 状态 ， 都 会 以 固定 的 时 间 
间 隅 为 它们 提供 食物 。 饥 饿 的 鸽子 在 笼子 里 走 来 走 去 ， 当 食物 第 一 次 送 达 时 ， 每 只 铅 子 
都 在 进行 某 项 活动 (吸食 、 转 动 头 部 等 )。 食 物 的 到 来 强化 了 它们 各 自 特定 的 行为 ， 此 
后 ， 每 只 鸟 都 倾向 于 花费 更 多 的 时 间 重复 这 种 行为 。 接 下 来 ， 随 机 的 食物 送 达 又 增加 了 








鸟 做 出 这 种 行为 的 机 会 。 结 果 是 ， 不 管 第 一 次 食物 送 达 时 ， 每 只 乌 处 于 什么 行为 状 
这 一 连 串 的 事件 都 增强 了 食物 送 达 和 这 种 行为 之 间 的 关联 。 进 而 ， 铝 子 们 也 更 勤 理 
地 做 出 这 种 行为 ” 。 

有 用 的 学 习 机 制 与 形成 迷信 的 学 习 机 制 有 何 差别 ? 这 个 问题 对 自动 学 习 带 的 发 展 至 大 
重要 。 尽 管 人 类 可 以 依靠 常识 来 滤 除 随机 无 意义 的 学 习 结 论 ， 但 是 一 旦 我们 将 学 习 任务 付 
之 于 一 台 机 器 ， 就 必须 提供 定义 明确 、 清 晰 的 规划， 来 防止 程序 得 出 无 意义 或 无 用 的 结 
论 。 发 展 这 些 规则 是 机 天 学 习 理 论 的 一 个 核心 目标 。 

是 什么 使 老鼠 的 学 习 比 鸽子 更 成 功 ? 作为 回答 这 个 问题 的 第 一 步 ， 我 们 仔细 看 一 下 老 
鼠 在 “ 层 饵 效应 ”实验 中 的 心理 现象 ， 

重新 审视 “性 乌 效 应 ”一 一 老鼠 未 能 获得 食物 与 电击 或 声音 与 反胃 之 间 的 关联 : 老鼠 
的 性 饵 效应 机 制 可 能 比 你 想象 中 的 更 复杂 。Garcia 进行 的 实验 (Garcia &. Koelling 1996) 表 
明 ， 当 进食 后 伴随 的 是 不 愉快 的 刺激 时 ， 比 如 说 电击 (不 是 反胃 反应 )， 那 么 关联 没有 出 
现 。 即 使 将 进食 后 电击 的 机 制 重 复 多 次 ， 老 鼠 仍然 倾 回 于 进食 。 同 样 ， 食 物 引起 的 反胃 
(口味 或 气味 ) 与 声音 之 间 的 关联 实验 也 失败 了 。 老 鼠 似 乎 有 一 些 “ 内 置 的 ” 先 验 知识 ， 告 
诉 它 们 ， 虽 然 食物 和 反胃 存在 因果 相关 ， 但 是 食物 与 电击 或 声音 与 反 骨 之 间 不 太 可 能 存在 
因 采 关系 。 

由 此 我 们 得 出 结论 ， 层 个 效 应 和 人 饮 子 迷信 的 一 个 关键 区 别 点 是 先 验 知识 的 引入 使 学 习 
机 制 产 生 偏 差 ， 也 称 为 “归纳 偏 置 "。 在 实验 中 ， 蚀 子 愿意 采取 任何 食物 送 达 时 发 生 的 行 
为 。 然 而 ， 老 鼠 “ 知 这 ”食物 不 能 导致 电击 ， 也 知道 与 食物 同 现 的 噪音 不 可 能 影响 这 种 食 
物 的 营养 价值 。 老 鼠 的 学 习 过 程 偏向 于 发 现 某 种 模式 ， 而 忽略 其 他 的 关联 。 

事实 证 明 ， 引 入 先 验 知 误导 致 学 习 过 程 产生 偏差 ， 这 对 于 学 习 算 法 的 成 功 必 不 可 少 
(正式 陈述 与 证 明 参 见 第 5 章 中 的 “没有 免费 的 午餐 ”定理 )。 这 种 方法 的 发 展 ， 即 能 够 表 
未 领域 知识 ， 将 其 转化 为 一 个 学 习 偶 置 ， 并 量化 偏 置 对 学 习 成 功 的 影响 ， 是 机 器 学 习 理 论 
的 一 个 核心 主题 。 粗 略 地 讲 ， 具 有 的 先 验 知识 ( 先 验 假设 ) 越 强 ， 越 容易 从 样本 实例 中 进行 
学 习 。 但 是 ， 先 验 假设 越 强 ， 学 习 越 不 灵活 一 一 受 先 验 假设 限制 。 第 5 章 将 详细 讨论 这 些 
问题 。 


1.2 什么 时 候 需 要 机 器 学 习 


什么 时 候 需 要 机 器 学 习 ， 而 不 是 直接 动手 编程 完成 任务 ? 在 指定 问题 中 ， 程 序 能 否 在 
“经 验 ” 的 基础 上 自我 学 习 和 提高 ， 有 两 方面 的 考量 : 问题 本 身 的 复杂 性 和 对 自 适应 性 的 
需要 。 

1. 过 于 复杂 的 编程 任务 

© 动物 /人 可 执行 的 任务 : 虽然 人 类 可 以 习惯 性 地 执行 很 多 任务 ， 但 是 反思 我 们 如 何 

完成 任务 的 内 省 机 制 还 不 够 精细 ， 无 法 从 中 提取 一 个 定义 良好 的 程序 。 汽 车 驾驶 、 
语音 识别 和 图 像 识 别 都 属于 此 类 任务 。 面 对 此 类 任务 ， 只 要 接触 到 足够 多 的 训练 样 
本 ， 目 前 最 先进 的 机 器 学 习 程序 ， 即 能 “从 经 验 中 学 习 ” 的 程序 ， 就 可 以 达到 比较 
满意 的 效果 。 

o 超出 人 类 能 力 的 任务 : 受益 于 机 器 学 习 技术 ， 另 一 大 系列 任务 都 涉及 对 庞大 且 复 杂 

的 数据 集 进行 分 析 : 天 文 数据 ， 医 疗 档案 转化 为 医学 知识 ， 气 象 预报 ， 基 因 组 数据 


每 只 
态 ， 
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分 析 ， 网 络 搜索 引擎 和 电子 商务 。 随 着 越 来 越 多 的 数字 数据 的 出 现 ， 显 而 多 多 的 
是 ， 隐 含 在 数据 里 的 有 意义 、 有 价值 的 信息 过 于 庞大 复杂 ， 超 出 了 人 类 的 理解 能 
力 。 学 习 在 大 量 复杂 数据 中 发 现 有 意义 的 模式 是 一 个 有 前 途 的 领域 ， 无 限 内 存 容 量 
加 上 不 断 提高 的 处 理 速度 ， 更 为 这 一 领域 开辟 了 新 的 视 对 。 
2. 自 适 应 性 
编程 的 局 限 之 一 是 其 刻板 性 一 一 一 旦 程序 的 编写 与 安装 完成 ， 它 将 保持 不 变 。 但 是 ， 
任务 会 随 着 时 间 的 推移 而 改变 ， 用 户 也 会 出 现 变 更 。 机 器 学 习 方法 一 一 其 行为 目 适 应 输入 
数据 的 程序 一 一 为 这 个 难题 提供 了 一 个 解决 方案 。 机 器 学 习 方 法 天 生 具 备 自 适 应 于 互动 环 
境 变 化 的 性 质 。 机 器 学 习 典 型 的 成 功 应 用 有 : 能 够 适应 不 同 用 户 的 手写 体 识别 ， 目 动 适应 
变化 的 垃圾 邮件 检测 ， 以 及 语音 识别 。 


1.3 学 习 的 种 类 

学 习 是 一 个 非常 广泛 的 领域 。 因 此 ， 机 器 学 习 根 据 学 习 任 务 的 不 同 分 为 不 同 的 子 类 。 
这 里 给 出 一 个 粗略 的 分 类 ， 和 旨 在 对 本 书 中 属于 机 器 学 习 广 泛 领域 的 那 部 分 内 容 提 供 一 些 
视角 。 

下 面 给 出 四 种 分 类 方式 。 

监督 与 无 监督 : 学 习 涉及 学 习 融 与 环境 之 间 的 互动 ， 那 么 可 以 根据 这 种 互动 的 性 质 划 
分 学 习 任 务 。 首 先 需 要 关注 的 是 监督 学 习 与 无 监督 学 习 之 间 的 区 别 。 下 面 以 垃圾 邮件 检测 
和 异常 检测 为 例 说 明 。 对 于 垃圾 邮件 检测 任务 ， 学 习 需 的 训练 数据 是 带 标 签 的 邮件 (是 / 否 
垃圾 邮件 )。 在 这 种 训练 的 基础 上 ， 学 习 需 应 该 找 出 标记 新 电子 邮件 的 规则 。 相 反 ， 对 于 
异常 检测 任务 ， 学 习 器 的 训练 数据 是 大 量 没 有 标签 的 电子 邮件 ， 学 习 需 的 任务 是 检测 出 
“NS” AIAG. 

抽象 一 点 来 讲 ， 如 果 我 们 把 学 习 看 做 一 个 “利用 经 验 获取 技能 ”的 过 程 ， 那 么 监督 学 
习 正 是 这 样 的 一 种 场景 : 经 验 是 包含 显著 信息 (是 / 否 垃 圾 邮件 ) 的 训练 数据 ， “测试 数据 ” 
缺少 这 些 显 著 信 息 ， 但 可 从 学 到 的 “技能 ”中 获取 。 此 种 情况 下， 获得 的 “技能 ”由 在 预 
测 测试 数据 的 丢失 信息 ， 我 们 可 以 将 环境 看 做 通过 提供 额外 信息 (标签 ) 来 “监督 ”学 习 器 
的 老师 。 然 而 ， 无 监督 学 习 的 训练 数据 和 测试 数据 之 间 没 有 区 别 。 学 习 吉 处理 输入 数据 的 
目标 是 提取 概括 信息 (浓缩 数据 )。 聚 类 (相似 数据 归 为 一 类 ) 是 执行 这 样 任务 的 一 个 典型 
例子 。 

还 有 一 种 中 间 情 况 ， 训 练 数据 比 测试 数据 包含 更 多 的 信息 ， 也 要 求学 习 器 预测 更 多 信 
上 县。 举 个 例子 ， 当 学 习 数 值 函数 判断 国际 象棋 游戏 中 白 棋 和 黑 棋 谁 更 有 利 时 ， 训 练 过 程 中 
提供 给 学 习 需 的 唯一 信息 是 ， 谁 在 整个 实际 的 棋牌 类 游戏 中 最 终 赢得 那 场 比赛 的 标签 。 这 
种 学 习 被 称 作 “ 强 化 学 习 ”。 

主动 学 习 器 与 被 动 学 习 器 : 学 习 可 依据 学 习 器 扮演 的 角色 不 同 分 类 为 “主动 ”和 “被 
动 ”学 习 人 句 。 主 动 学习 需 在 训练 时 通过 提问 或 实验 的 方式 与 环境 交互 ， 而 被 动 学 习 器 只 观 
察 环境 (老师 ) 所 提供 的 信息 而 不 影响 或 引导 它 。 请 注意 ， 垃 圾 邮件 过 滤 任 务 通常 是 被 动 学 
习 一 一 等 待 用 户 标 记 电子 邮件 。 我 们 可 以 设想 ， 在 主动 学 习 中 ， 要 求 用 户 来 标记 学 习 器 挑 
选 的 电子 邮件 ， 以 提高 学 习 器 对 “垃圾 邮件 是 什么 ”的 理解 。 

老师 的 帮助 : 人 类 的 学 习 过 程 中 (在 家 的 幼儿 或 在 校 的 学 生 ) 往 往 会 有 一 个 良 师 ， 他 向 
学 习 者 传输 最 有 用 的 信息 以 实现 学 习 目 标 。 相 比 之 下 ， 科 学 家 研究 自然 时 ， 环 境 起 到 了 老 
师 的 作用 。 环 境 的 作用 是 消极 的 一 一 苹果 坠落 、 星 星 闪 烁 、 雨 点 下 落 从 不 考虑 学 习 者 的 需 








求 。 在 对 这 种 学 习 情境 建 模 时 ， 我 们 假定 训练 数据 (学 习 者 的 经 验 ) 是 由 随机 过 程 产生 的 ， 
这 是 统计 机 器 学 习 的 一 个 基本 构成 单元 。 此 外 ， 学 习 也 发 生 在 学 习 者 的 输入 是 由 对 立 “ 老 
师 ” 提 供 的 。 垃 圾 邮件 过 滤 任 务 ( 如 果 垃 圾 邮件 制作 者 尽力 误导 垃圾 邮件 过 滤器 设计 者 ) 和 
检测 欺诈 学 习 任务 就 是 这 种 情况 。 当 不 存在 更 好 的 假设 时 ， 我们 也 会 使 用 对 立 老师 这 一 最 
坏 方案 。 如 果 学 习 器 能 够 从 对 立 老师 中 学 习 ， 那 么 遇 到 任何 老师 都 可 以 成 功 。 

在 线 与 批量 : 在 线 响应 还 是 处 理 大 量 数据 后 才 获 得 技能 ， 是 对 学 习 融 的 另 一 种 分 类 方 
式 。 举 个 例子 ， 股 票 经 纪 人 必须 基于 当时 的 经 验 信息 做 出 日 常 决策 。 随 着 时 间 推 移 ， 他 或 
许 会 成 为 专家 ， 但 是 也 会 犯错 并 付出 高 昂 的 代价 。 相 比 之 下 ， 在 大 量 的 数据 挖掘 任务 中 ， 
学 习 器 ， 也 就 是 数据 挖掘 器 ， 往 往 是 在 处 理 大 量 训练 数据 之 后 才 输 出 绪论 。 

在 本 书 中 ,我 们 只 选取 一 部 分 机 絮 学 习 技 术 进 行 讨论 。 重 点 是 被 动 的 、 有 监督 的 、 统 
计 批 量 学 习 ( 例 如 ， 基 于 大 量 独立 收集 的 且 带 有 病人 最 终结 果 标 记 的 诊断 记录 ， 学 习 如 何 
预测 病人 结果 )。 另 外 ， 本 书 也 对 在 线 学 习 和 无 监督 批量 学 习 ( 尤 其 是 聚 类 ) 做 了 介绍 。 


1.4 与 其 他 领域 的 关系 

作为 一 门 交 义学 科 ， 机 带 和 学 习 与 统计 学 、 信 息 论 、 博 弈 论 、 最 优化 等 众多 数学 分 支 有 着 
共同 点 。 我 们 的 最 终 目 标 是 在 计算 机 上 编写 程序 ， 所 以 机 胡 学 习 自 然 也 是 计算 机 科学 的 一 个 
分 文 。 在 某 种 意义 上 ， 机 融 学 习 可 以 视 为 人 工 智能 的 一 个 分 支 ， 毕 竟 ， 要 将 经 验 转变 成 专业 
知识 或 从 复杂 感知 数据 中 发 现 有 意义 的 模式 的 能 力 是 人 类 和 动物 智能 的 基石 。 但 是 ， 应 该 注 
意 的 是 ， 与 传统 人 工 智能 不 同 ， 机 器 学 习 并 不 是 试图 上 自动 模仿 智能 行为 ， 而 是 利用 计算 机 的 
优势 和 特长 邱 人 类 的 智慧 相得益彰 。 机 融 学 习 常 用 于 执行 远 远 超出 人 类 能 力 的 任务 。 例 如 ， 
机 融 学 习 程 序 通过 浏览 和 处 理 大 型 数据 ， 能 够 检测 到 超出 人 类 感知 范围 的 模式 。 

机 融和 学 习 ( 的 经 验 ) 训 练 涉及 的 数据 往往 是 随机 生成 的 。 机 器 学 习 的 任务 就 是 处 理 这 些 
育 景 下 的 随机 生成 样本 ， 得 出 与 背景 相符 的 结论 。 这 样 的 描述 强调 了 机 器 学 习 与 统计 学 的 
密切 关系 。 两 个 学 科 之 间 确 实 有 很 多 共同 点 ， 尤 其 表现 在 目标 和 技术 方面 。 但 是 ， 两 者 之 
间 仍 然 存在 显著 的 差别 : 如 果 一 个 医生 提出 吸烟 与 心脏 病 之 间 存 在 关联 这 一 假设 ， 这 时 应 
该 由 统计 学 家 去 查看 病人 样本 并 检验 假设 的 正确 性 (这 是 常见 的 统计 任务 一 一 假设 检验 )。 
相 比 之 下 ， 机 器 学 习 的 任务 是 利用 患者 样本 数据 找 出 心脏 病 的 原因 。 我 们 希望 自动 化 技术 
能 够 发 现 被 人 类 忽略 的 、 有 意义 的 模式 (或 假设 ) 。 

与 传统 统计 学 不 同 ， 算 法 在 机 器 学 习 中 (尤其 在 本 书 里 ) 扮 演 了 重要 的 角色 。 机 器 学 习 
算法 要 靠 计 算 机 来 执行 ， 因 此 算法 问题 是 关键 。 我 们 开发 算法 完成 学 习 任 务 ， 同 时 关心 算 
法 的 计算 效率 。 两 者 的 另外 一 个 区 别 是 ， 统 计 关心 算法 的 渐 近 性 (如 随 着 样本 量 增 长 至 无 
穷 大 ， 统 计 佑 计 的 收敛 问题 )， 机 器 学 习 理 论 侧 重 于 有 限 样 本 。 也 就 是 说 ， 给 定 有 限 可 用 
样本 ， 机 天 学 习 理 论 旨 在 分 析 学 习 器 可 达到 的 准确 度 。 

机 符 和 学 习 与 统计 学 之 间 还 有 很 多 差异 ， 我 们 在 此 仅 提 到 了 少数 。 比 如 ， 在 统计 学 中 ， 
第 冯 先 提出 数据 模型 假设 (生成 数据 呈正 态 分布 或 依赖 函数 为 线性 ); 在 机 器 学 习 中 常 考虑 
“ 非 参 数 ” 背 景 ， 对 数据 分 布 的 性 质 假 设 尽 可 能 地 少 ， 学 习 算 法 自己 找 出 最 接近 数据 生成 
过 程 的 模型 。 深 入 讨论 这 个 问题 需要 更 多 的 技术 基础 ， 详 见 第 5 Be, 


1.5 如 何 阅 读本 书 


本 书 第 一 部 分 是 机 器 学 习 的 基本 理论 知识 ， 从 某 种 意义 上 讲 ， 这 是 本 书 其 余部 分 的 基 
础 。 这 部 分 应 该 作为 机 器 学 习 理论 入 门 课程 的 基础 。 


第 二 部 分 介绍 了 最 常见 的 监督 机 器 学 习 算 法 。 部 分 内 容 可 作为 机 器 学 习 的 介绍 内 容 用 
于 面向 计算 机 科学 、 数 学 、 工 程 类 学 生 的 人 工 智 能 课程 。 

第 三 部 分 讨论 了 统计 分 类 等 其 他 学 习 模 型 ， 包 括 在 线 学 习 、 无 监督 学 习 、 维 数 约 简 、 
生成 模型 和 特征 学 习 。 

第 四 部 分 是 高 级 理论 ， 主 要 面 回 对 机 需 学 习 方 向 有 科研 兴趣 的 读者 。 此 部 分 涵盖 了 更 
多 的 数学 方法 ， 用 于 分 析 和 推动 机 响 学 习 理 论 发 展 。 

附录 给 出 了 书 中 用 到 的 一 些 数学 方法 ， 其 中 包 插 测度 集中 度 理论 和 线性 代数 的 基础 
结论 。 

标注 星 号 的 章节 ， 更 适合 高 年 级 的 学 生 。 大 部 分 章 的 后 面 都 有 练习 ， 课 程 网 站 上 有 解答 。 
建议 的 教学 计划 

A. 面向 研究 生 的 入 门 课程 (14 周 ) 
第 2 一 4 章 
第 9 章 ( 略 过 VC 计算 ) 
第 5 和 6 章 ( 略 过 证 明 ) 
第 10 章 
第 7 和 11 章 ( 略 过 证 明 ) 
第 12 Al 13 章 ( 可 选取 一 些 简 单 的 证 明 ) 
第 14 章 ( 可 选取 一 些 简单 的 证 明 ) 
第 15 章 
第 16 章 
10. % 18 È 
ll. 3222 
12. 第 23 章 ( 略 过 压缩 感知 证 明 ) 
13. 第 24 章 
14. 第 25 & 
B. 面向 研究 生 的 高 级 课程 (14 周 ) 
1. 第 26 和 27 章 
2. (继续 ) 
3. 第 6 和 28 章 
4. 37 A 
5. 56 31 & 
6. 第 30 & 
7 
8 


FE 


和 


.第 12 和 13 章 
. 第 14 章 
9. 第 8 章 





1.6 符号 
本 书 所 有 使 用 的 符号 都 是 符合 标准 或 提前 定义 的 ， 本 节 给 出 一 些 约 定 ( 符 号 汇总 见 
表 1. 1) 。 读 者 可 跳 过 此 部 分 ， 遇 到 符号 定义 不 清楚 时 再 返回 本 下 。 


表 1.1 符号 汇总 表 


符号 含义 
R 实数 集 
Rd 民 上 的 d 维 问 量 集 
Ry 非 负 实数 集 
N 自然 数 集 
O, o @, w Q, O 渐 近 记号 
卫 [ 布 尔 表达 式 ] 指示 函数 (布尔 表达 式 为 真 时 等 于 1， 否 则 等 于 0) 
[a]+ =max({0, a} 
La] 集合 {1 ，…，n}(n€E N) 
Xs Vy w ( 列 ) 疝 量 
Lis Vis Wi 问 量 的 第 i 个 元 素 
(x, v) = (各 
|x Ilo 或 1 xl = V(x，X) (x 的 lz 范 数 ) 
Er = $) | z | C 4 EO 
1 xl = 一 max | x; (x AY 0 HERO 
I| xl] o x 中 非 零 元 素 的 个 数 
AER R ER dXk HERE 
AT A 的 转 置 
ACi, j) AMBCU, AR 
xxT dXd WA, 满足 Aij,j; =2:2;(x€ R) 
Kis a Xen 包含 m 个 问 量 的 序列 
Tij 序列 中 第 i 个 向 量 的 第 j 个 元 素 
w”, wP 迭代 算法 中 向 量 w 的 值 
wk? 向 量 o” WS i 个 元 素 
x 实例 空间 (集合 ) 
y 标签 空间 (集合 ) 
Z 样本 空间 (集合 ) 
H 假设 空间 (集合 ) 
é: HXZ->R+ 损失 函数 
D (Z 或 二 上 的 ) 概 率 分 布 
D(A) 在 分 布 PF ， 集 合 ASZ 上 的 概率 
z~D 基于 分 布 卫 的 采样 
S=zis ty Zm m 个 样本 序列 
S~D" 在 分 布 D 下 ， 独 立 同 分 布 采样 S=z1. e, Zm 
P, E 随机 变量 的 概率 和 期 望 
P.~p| f(z) ] =D({z:f(2)=H))(f:Z>+(B, 假 }) 





(ZE) 
符号 含义 
BE.~ pL f(z) | 随机 变量 广 Z-~ 了 的 期 户 
N(p, ©) 高 斯 分 布 (期 望 pg， 协 方差 C) 
f(x) 函数 户 了 -> 及 在 工 处 的 一 阶 导数 
fia) 函数 SRR CE x Ab) R 
ofw) 函数 fs RR FE ww; 处 的 偏 微分 
Vf(w) 函数 三 了 一 -及 在 w 处 的 梯度 
of(w) RR f RY RE w 处 的 微分 
mun f Cx) 二 min{ f(r) rE CR f TEC 上 的 最 小 值 
max/ (x) =max{ f(r): E CRK f TEC 上 的 最 大 值 
argminf (z) A {rE C: f(2)=minf (z) ? 
argmaxf (x) 集合 {XE C: f(x)=maxf (z)} 
log 自然 对 数 


我 们 使 用 小 写字 和 母 表示 标量 和 对 和 象 (例如 x，X)， 强 调 对 象 是 向 量 时 使 用 黑体 (例如 x， 
A). ME x 的 第 ; 个 元 素 表 示 为 zi。 使 用 大 写字 母 表示 矩阵、 集合 和 序列 。 接 下 来 我 们 看 
到 ， 一 个 学 习 算法 的 输入 是 一 个 训练 样本 序列 。 用 = 表示 样本 ， 用 S 二 zi ，…，z 表示 m 
个 样本 序列 。 通 常 ，S 表示 训练 集合 ， 本 书 中 使 用 S 表示 序列 。z ，…，xn 表 示 有 mx 个 向 
量 的 序列 ， 其 中 癌 量 x 的 第 i 个 元 素 表 示 为 x,,;。 

本 书 使 用 概率 论 中 的 符号 表示 。 了 表示 集合 上 的 分 布 8 ，z 一 了 表示 分 布 D 上 的 采样 。 
随机 变量 f: 2 一 到 的 期 望 是 了 -ppLFCz)]， 当 > 在 上 下 文中 意思 明确 时 简 记 为 也 L 方 。 当 
三 :QZ 一 及 ( 真 ， 假 } 时 ， 分 布 了 ((z: f(z) 三 真 )) 也 记 为 Pp[f (xz)]。 另 有 ，Z”* = 
(Ci，…，zo) 的 概率 分 布 记 为 D"”， 其 中 Z 中 的 每 个 点 z; 都 是 独立 于 其 他 点 的 D 上 的 采样 。 

总 体 上 ， 我 们 尽量 避免 使 用 渐 近 符号 。 为 澄清 重要 结果 ， 偶 尔 使 用 。 特 别 地 ， 有 
f: R>R+ 和 gg: ROR, WRAAE tos ER, HFA >r 满足 f(r) <eg (2), 
记 为 f=O(g); 如 果 对 于 所 有 的 0， 都 存在 >r 满足 f(x) 三 ag (x)， 记 为 f=o(g); 
如 果 存 在 Tos ER, IIFAR >r 满足 f(x) 宇 ag (x)， 记 为 f=Qle); 如 果 对 于 所 
有 的 a 二 0， 都 存在 x 二 zo 满足 f(x) 之 ag (x),， 记 为 f=w(g); 4 f=O(g). g=O NWE 
时 ， 记 为 1 二 8(g); 如 果 存 在 &EN， WE f(x) 二 OCg(x)logt (g(x)))， 记 为 Re 


回 量 x 和 w 默认 为 欧式 空间 上 的 d 维 向 量 ， 其 内 积 表 示 为 (xw) = >) zi > ME w 
AY 4 苑 数 ( 欧 式 范 数 ) 表 示 为 | wl:=V lw, w), =e 下 标 2 省略。 推广 一 
F: 4 范 数 | wil, = 92 lwl s EP | wll, = $> lwl s lwla ,=max| w; | 。 


我 们 使 用 minf (zx) 表示 集合 {f(z) sp EC 上 的 最 小 值 。 从 数学 意义 上 准确 地 讲 ， 当 


无 法 求 出 最 小 值 时 ， 我 们 应 该 使 用 infizecf (x)。 然 而 ， 本 书 中 用 到 的 inf 和 min 的 区 别 很 
小 ， 为 了 表述 简单 ， 虽然 有 些 时 候 inf 更 准确 ， 我 们 还 是 使 用 min。 最 大 值 max 和 上 确 界 
sup 也 是 同样 情况 。 


”用 准确 的 数学 语言 讲 ,DD 应 该 在 Z 的 子 集 的 a- 代 数 上 定义 。 不 熟悉 测度 论 的 读者 可 跳 过 与 测度 论 中 定义 和 
假设 相关 的 脚注 。 
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让 我 们 从 相对 简单 的 设 定 开 始 ， 用 数学 分 析 展 示 如 何 取 得 成 功 的 和 学习。 假设 你 刚刚 到 
达 太 平 洋 上 的 一 个 小 岛 ， 很 快 你 发 现 木瓜 是 当地 饮食 中 一 个 重要 的 组 成 部 分 ， 然而， 你 从 
来 没有 吃 过 木瓜 。 所 以 你 必须 学 会 如 何 判断 市 场 上 售卖 的 木瓜 是 否 好 吃 。 首 先 ， 你 需要 选 
择 根据 木瓜 的 哪些 特征 来 给 出 判断 。 基 于 你 之 前 选择 其 他 水 果 的 经 验 ， 你 决定 利用 以 下 两 
个 特征 : 木瓜 的 颜色 (范围 从 暗 绿色 、 橘 黄色 、 红 色 到 深 标 色 )、 木 瓜 的 软 硬 程度 (范围 从 
岩石 般 坚硬 到 浆 糊 般 柔 软 )。 为 了 获得 对 木瓜 的 判断 ， 你 的 输入 样本 由 以 下 属性 决定 : 
通过 观测 获得 木瓜 的 颜色 和 软 硬 程度 ; 避 通 过 亲口 尝试 确定 这 些 木 瓜 到 底 好 不 好 吃 。 下 
面 让 我 们 结合 这 个 任务 来 分 析 并 证 明 学 习 问 题 中 需要 考虑 的 因素 。 

我 们 的 第 一 个 步骤 是 描述 一 个 能 够 刻画 类 似 学 习 任 务 的 形式 化 模型 。 


2. 1 一 般 模型 一 一统 计 学 习 理 论 框架 

1. SSW RA 

在 基础 的 统计 学 设 定 中 ， 学 习 天 应 该 预先 接触 以 下 概念 : 

o 领域 集 (domain set): 一 个 任意 的 集合 率 。 这 个 集合 中 的 实例 是 我 们 希望 能 够 为 其 
贴 上 标签 的 。 例 如 ， 在 之 前 提 到 的 木瓜 学 习 问 题 中 ， 领 域 集 为 所 有 木瓜 的 集合 。 这 
些 领 域 集中 的 元 素 通 第 用 一 个 能 够 表征 其 特征 的 问 量 表 示 ( 如 木瓜 的 颜色 和 软 硬 程 
度 )。 我 们 也 把 领域 中 的 元 素 称 为 实例 ， 相 应 地 ,你 被 称 为 实例 空间 。 
标签 集 (label set): 就 目前 讨论 的 内 容 来 说 ， 我 们 将 标签 集 限 定 为 一 个 二 元 集合 ， 
通常 为 {0，1} 或 者 {一 1， 十 1}。 令 7 为 集合 中 可 能 的 标签 。 对 应 于 木瓜 的 例子 ， 假 
定 标 签 集 ) 为 {0，1;， 其 中 1 代表 木瓜 好 吃 ，0 表示 木瓜 难 吃 。 
训练 数据 (training data): S={Cris yids tts (tins Yn) I-47 BRAS. EJI 
中 的 元 素 以 XJ 形式 成 对 出 现 。 也 就 是 说 ， 训 练 集 是 一 个 由 带 标 签 的 领域 集 元 素 
组 成 的 序列 。 这 个 输入 数据 是 学 习 器 能够 接触 到 的 (例如 有 一 堆 木 瓜 ， 我 们 能 够 观 
测 到 它们 颜色 、 软 硬 程 度 ， 同 时 也 知道 它们 好 不 好 吃 )。 这 些 带 标签 的 样本 通常 称 
为 训练 样本 ， 我 们 有 时 称 S 为 训练 集 2 。 

2. 学 习 器 的 输出 

要 求学 习 央 输出 一 个 预测 规则 (predietion rule) ，A:->J)。 该 函数 也 称 为 预测 器 (pre- 
dictor) 、 假 设 (hypothesis) 或 分 类 天 (classifier)。 这 个 预测 器 可 以 用 来 预测 一 个 新 的 领域 
元 系 的 标签 。 在 木瓜 的 例子 中 ， 学 习 需 预测 规则 用 来 预测 在 农贸 市 场 中 我 们 将 要 检查 的 木 
瓜 是 否 好 吃 。 我 们 用 A(S) 来 表示 学 习 算 法 A 在 给 定 训练 序列 S 的 情况 下 返回 的 假设 。 

3. 一 个 简单 的 数据 生成 模型 

下 面 介 绍 训练 数据 是 如 何 产生 的 。 首 先 假设 实例 (对 应 于 木瓜 ) 根 据 某 些 概率 分 布 D( 对 


O 尽管 这 里 用 的 是 “集合 ”的 概念 ， 但 是 S 是 一 个 序列 。 尤 其 是 当 有 两 个 相同 的 样本 同时 出 现在 S 中 时 ， 某 
些 算 法 可 以 利用 样本 在 S 中 的 顺序 关系 。 
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应 于 岛 上 的 环境 ) 采 样 获得 。 必 须 注意 的 是 ， 我 们 并 不 需要 学 习 器 知道 此 概率 分 布 的 任何 
信息 。 对 于 我 们 讨论 的 学 习 任 务 来 说 ，D 可 以 为 任意 的 概率 分 布 。 在 本 章 的 讨论 中 ， 我 们 
假设 存在 一 些 “ 正 确 ”标记 函数 太 :4->J， 使 得 对 于 任意 的 1，y 王 87Cz)。 该 假设 将 在 下 
一 章 中 被 适当 放松 。 对 于 学 习 器 来 说 ， 该 “正确 ”标记 函数 是 未 知 的 。 实 际 上 ， 指 出 每 个 
样本 的 正确 标签 正 是 学 习 器 需要 完成 的 任务 。 综 上 ， 训 练 序 列 S 中 的 每 一 对 训练 数据 的 产 
生 过 程 是 : 首先 根据 概率 分 布 了 采集 样本 点 zx;， 然 后 利用 “正确 ”标记 函数 f AAP 
标签 。 

4. 衡量 成 功 

分 类 器 误差 定义 为 : 未 能 成 功 预 测 随 机 数据 点 正确 标签 的 概率 (随机 数据 点 是 从 之 前 
提 到 的 潜在 分 布 中 生成 的 )。 也 就 是 说 ，h 的 误差 是 h(x) 隆 f(z) 的 概率 ， 其 中 是 根据 分 
布 了 采集 的 随机 样本 。 

形式 上 ， 给 定 一 个 领域 子 集 (domain subsebSACH ， 概 率 分 布 D, D(A) 决 定 了 能 够 观测 到 
LEA 的 概率 。 很 多 情况 下 ， 我 们 称 A 为 一 个 事件 ， 将 其 表达 为 一 个 图 数 oe: 10, 1), tht 
是 说 ，A 二 {rE :x(z) 二 1}。 在 这 种 情况 下 ,我 们 也 用 了 -pLx(z)] 来 表示 D(A)。 

预测 准则 (4h: AV) WTR RE LH: 

Lps lh) = P,-plh(x) Æ f(x)] = DU rih(x) Æ fz))) (2. 1) 

也 就 是 说 , 所 的 误差 是 随机 选择 一 个 样本 工 ， 使 得 Ao) A fo) AE. FED, ABU 
误差 的 测量 基于 概率 分 布 P 和 正确 标记 函数 /。 在 以 后 的 章节 中 我 们 将 省 略 该 下 标 。 
Lp,i(h) 也 称 为 泛 化 误差 、 损 失 或 者 hh 的 真实 误差 。 在 本 书 中 ,我们 将 交叉 地 使 用 这 些 名 
称 。 因 为 泛 化 误差 是 与 用 户 损失 (loss) 等 价 的 ， 所 以 我 们 用 字母 二 表示 误差 。 在 本 书后 面 
的 内 容 中 ， 我 们 也 会 讨论 这 种 损失 的 其 他 可 能 的 形式 。 

5. 注意 事项 : 学 习 器 可 接触 到 的 信息 

对 于 分 布 P 和 标记 函数 f， 学 习 融 是 未 知 的 。 在 木瓜 的 例子 中 ， 我 们 刚刚 到 达 一 个 新 
的 小 品 ， 对 于 木瓜 的 分 布 和 如 何 预测 木瓜 味道 一 无 所 知 。 学 习 者 与 小 岛 中 新 环境 接触 的 唯 
一 方式 就 是 通过 观察 训练 集 。 

下 一 节 将 介绍 一 种 开始 算法 设计 和 分 析 算 法 效果 的 简单 范例 。 


2.2 经 验 风 险 最 小 化 


之 前 提 到 ， 一 个 学 习 算 法 的 输入 是 一 个 训练 集 S$， 训练 集 从 一 个 未 知 分 布 D 中 采样 获 
得 ， 通 过 目标 函数 f 对 训练 样本 进行 标记 。 我 们 需要 输出 一 个 预测 器 hs: XV CP bE Sih 
明 输 出 的 预测 天 是 基于 训练 集 S 的 )。 学 习 算 法 的 目标 是 求 出 一 个 最 小 的 预测 器 及 使 得 关 
于 未 知 分 布 D 和 上 了 的 预测 误差 最 小 化 。 
由 于 学 习 需 并 不 知道 D 和 上 了 是 什么 样 的 ， 所 以 无 法 直接 获知 真实 误差 。 学 习 器 能 够 计 
算出 来 的 一 个 有 用 的 概念 是 训练 误差 一 一 分 类 器 在 训练 样本 中 导致 的 误差 : 
Leth) = |{i€ Lm :h(xi) Æ y} 


m 


(2. 2) 


FEAL om J={1, sai M} o 
术语 经 验 误差 或 经 验 风 险 对 于 该 误差 通常 可 以 互 换 使 用 。 


日 ”严格 说 来 ， 我 们 应 该 要 求 在 给 定 分 布 D 的 情况 下 ，A 是 + 子 集 的 某 些 o -代数 中 的 一 员 ，。 我 们 将 在 下 面 的 章节 给 出 
可 测 性 假设 (measurability assumptions) 的 形式 化 定义 。 
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对 于 学 习 者 来 说 ， 训 练 样本 是 真实 世界 的 一 个 缩影 ， 因 此 利用 训练 集 来 寻找 一 个 对 于 
数据 的 可 行 解 是 合理 的 。 这 些 学 习 范 例 一 一 从 预测 器 h 出 发 到 最 小 化 Ls (4) 一 一 称 为 经 验 
风险 最 小 化 ， 或 简称 为 了 上 RM。 


可 能 出 现 的 失误 一 一 过 拟 合 
尽管 ERM 规则 看 起 来 顺理成章 ， 但 是 如 果 不 小 心 ， 这 种 方法 可 能 惨遭 失败 。 
举例 说 明 这 种 失败 ， 我 们 回 到 基于 软 硬 程度 和 颜色 预测 木瓜 味道 的 学 习 问 题 上 。 假 设 
一 个 样本 如 下 图 所 示 : 





假设 概率 分 布 D 使 得 实例 (木瓜 ) 在 如 上 图 所 示 灰 色 正 方形 中 均匀 分 布 。 标 记 孙 数 f R 

定 了 实例 如 果 出 现在 正方 形 的 内 部 ， 那 么 其 标记 为 1， 否则 标记 为 0。 图 中 灰色 正方 形 的 
面积 为 2， 其 中 间 的 正方 形 面 积 为 1。 思考 如 下 预测 疮 : 

y WF iE[m|] st 五 一 工 

hs(a) = 0 Sil CARY 

以 上 预测 器 看 起 来 人 工 设 计 的 痕迹 太 重 ， 在 练习 2. 1 中， 我 们 介绍 如 何 利 用 多 项 式 更 自然 

地 表示 这 个 预测 器 。 显 然 ， 无论 样本 是 什么 ，Ls (hs) 二 0， 因 此 预测 右 可 能 会 选择 一 种 

ERM 算法 (这 是 一 种 经 验 最 小 损失 假设 ,没有 分 类 带 会 比 这 种 假设 具有 更 小 的 误差 )。 田 

一 方面 ， 任 务 分 类 器 通过 有 限 个 数 的 实例 来 预测 标记 1 的 真实 误差 ， 在 本 例 中 ， 为 1/2。 

于 是 Lp (pns) 王 1/2。 我 们 发 现 一 个 预测 器 在 训练 集 上 的 效果 非常 优秀 ， 但 是 在 真实 世界 中 

的 表现 非常 糟糕 ， 这 种 现象 称 为 过 拟 合 。 直 观 上 ， 过 拟 合 发 生 在 当 假设 对 于 训练 集 契 合 地 

“ 太 好 了 ”也许 正如 我 们 日 常生 活 中 的 经 验 一 样 : 一 个 人 如 果 能 对 自己 的 每 一 个 行为 都 能 
做 出 完美 的 解释 ， 那 么 这 个 人 是 容易 令 人 产生 怀疑 的 )。 


2.3 ”考虑 归纳 偏 置 的 经 验 风 险 最 小 化 


我 们 刚刚 证 明了 ERM 规则 容易 导致 过 拟 合 。 相 较 于 就 此 抛弃 ERM 范例 ， 我 们 更 倾 
向 于 寻找 方法 来 修正 它 。 我 们 将 寻找 保证 ERM 不 会 导致 过 拟 合 的 条 件 。 也 就 是 说 ， 在 这 
样 的 条 件 下 ，ERM 预测 需 既 能 够 在 训练 数据 中 获得 不 错 的 表现 ， 也 有 较 大 可 能 性 在 潜在 
的 数据 分 布下 表现 良好 。 

通常 的 解决 方案 是 在 一 个 受 限 的 搜索 空间 中 使 用 ERM 学 习 准 则 。 形 式 上 ， 一 个 学 习 器 
应 该 提前 选择 (在 接触 到 数据 之 前 ) 一 个 预测 器 的 集合 。 这 个 集合 称 为 假设 类 ， 记 为 民 。 每 一 
个 h€EHKN 是 从 映射 到 》 的 一 个 函数 。 对 于 给 定 的 假设 类 ZK 和 一 个 训练 样本 集 S, ERM 学 习 
arte pate S 上 的 最 小 化 概率 误差 ， 利 用 ERM 规则 选择 一 个 预测 器 hEHK。 形 式 上 如 下 

ERM,(S) € argmin Ls(h) 

其 中 ，argmin 表示 从 假设 集合 丸 中 选择 使 得 Ls (h) Re) WO A. BR AE EHR 
选择 预测 带 ， 我 们 的 选择 偏向 于 一 个 特别 的 预测 器 集合 。 这 种 限制 通常 称 为 归纳 偏 置 。 因 
为 这 种 选择 决定 于 学 习 器 接触 训练 数据 之 前 ， 所 以 它 应 该 基于 一 些 需 要 学 习 问题 的 先 验 知 
识 。 举 例 来 说 ， 对 于 木瓜 味道 的 预测 问题 ， 我 们 或 许可 以 选择 由 轴 对 称 和 矩形 ( 二 维 空间 两 
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个 维度 分 别 颜 色 和 软 硬 程度 ) PT A EB) TH BEE EH. Jes Wi ATT AF he Pd Ee 
假设 类 的 ERM; 为 什么 能 够 保证 不 过 拟 合 。 另 一 方面 ， 我 们 之 前 看 到 的 过 拟 合 例子 证 明 
T: 存在 一 类 预测 器 ， 它 们 包括 所 有 将 有 限 集合 中 的 元 素 设 定 为 1 的 函数 。 选 择 此 类 预测 
器 作为 假设 类 ZX 是 不 足以 防止 ERMy 过 拟 合 的 。 

在 学 习 理 论 中 ， 一 个 基本 的 问题 是 : 选择 哪 种 假设 类 ERMy, 不 会 导致 过 拟 合 。 本 书 接 
下 来 的 章节 将 探讨 这 个 问题 。 

直观 上 ， 选 择 一 个 更 加 严格 受 限 的 假设 类 能 够 更 好 地 防止 过 拟 合 ， 但 与 此 同时 ， 也 会 
带 来 更 强 的 归纳 偏 置 。 我 们 后 面 会 重新 考虑 这 两 者 的 权衡 。 


有 限 假 设 类 

对 于 一 个 类 来 说 ， 最 简单 的 一 种 限制 就 是 限定 其 势 的 上 界 ( 也 就 说 丸 中 预测 帮 六 的 个 
数 )。 本 节 说 明了 如 果 风 是 有 限 类 ，ERM; 将 不 会 过 拟 合 ， 前 提 是 拥有 足够 多 的 训练 样本 
(其 大 小 依赖 于 假设 类 ZX 的 势 )。 

让 学 习 器 在 有 限 假设 类 上 选择 预测 规则 是 一 种 适度 温和 的 限制 。 比 如 说 ， 戏 是 一 个 预 
测 器 组 成 的 集合 ， 这 些 预测 器 可 以 通过 C++ 程序 利用 至 多 10" 位 的 代码 实现 。 在 木瓜 的 例 
子 中 ， 我 们 提 到 由 一 系列 轴 对 称 和 矩形 组 成 的 类 。 虽 然 这 是 一 个 无 限 类 ， 但 是 如 果 我 们 离散 
化 实数 表示 ， 例 如 ， 利 用 一 个 64 位 的 浮 点 数 表 示 ， 这 个 假设 类 将 转化 为 一 个 有 限 类 。 

接 下 来 我 们 分 析 ERM 在 有 限 假 设 类 戏 的 前 提 下 的 表现 。 对 于 一 个 训练 样本 S， 利 用 
某 些 标记 函数 f: 一 7 为 其 贴 上 标签 。 设 hs 为 对 S 利用 ERM; 得 到 的 结果 ， 也 就 是 说 

hs € argmin Ls(h) (2. 4) 
在 本 章 中 ,我们 做 出 如 下 简化 的 假设 (这 些 假设 在 下 一 章节 中 将 放宽 )。 


定义 2. 1( 可 实现 性 假设 ) AEA CH, 使 得 Lp./(h" ) 一 0， 注 意 ， 这 个 假设 意味 着 
对 于 任意 的 随机 样本 集 S( 其 中 S 中 实例 是 根据 分 布 卫 随机 采集 的 ， 其 标签 由 了 决定) 以 概 
Æ 144 Ls (h* ))=0, 


可 实现 性 假设 意味 着 对 于 每 个 ERM (Ri. 我们 有 SLs(hs) 二 0。 然 而 ， 相 对 于 经 验 风 
险 来 说 ， 我 们 更 加 感 兴趣 于 hs 真实 的 风险 Lp. (hs). 

显然 ， 对 于 一 个 只 能 接触 到 样本 集 S 的 算法 来 说 ， 关 于 潜在 分 布 D 的 任何 误差 保证 都 
必须 依赖 于 D 和 S 之 间 的 关系 。 在 统计 机 器 学 习 中 最 通常 的 假设 是 S 中 训练 样本 是 从 DD 中 
独立 同 分 布地 抽取 的 。 形 式 上 ， 

独立 同 分 布 (i. i. d. ) 假 设 : 训练 集中 的 样本 根据 分 布 D 独 立 同 分 布 。 也 就 是 说 ，S 中 每 
一 个 z; 采样 于 ， 然 后 根据 标记 函数 f 确定 其 标签 。 记 为 S~D", HP m X SHR, D” 
表示 mx- 组 (m-tuples) 的 概率 ， 对 于 m- 组 中 的 每 一 个 元 素 ， 都 是 独立 于 组 中 其 他 元 素 而 从 
DD 中 独立 抽取 的 。 

直观 上 ， 训 练 集 S 是 一 个 学 习 器 从 整体 数据 分 布 D 和 标记 函数 f 中 获取 的 部 分 信息 ， 
是 使 得 学 习 器 能 够 接触 到 外 部 世界 的 一 个 窗口 。 训 练 样 本 越 大 ， 越 能 准确 地 反映 数据 分 布 
和 标记 函数 ， 从 而 利用 其 生成 此 分 布 和 函数 。 

由 于 Lp.j(hs) 依 赖 于 训练 集 S， 而 训练 集 通过 一 个 随机 过 程 采样 ， 因 此 通过 风险 
LpD,r(hs) 来 选择 预测 器 hs 也 存在 随机 性 ， 这 就 是 所 谓 的 随机 变量 。 学 习 器 试图 通过 完全 


O 从 数学 上 说 ， 这 种 情况 以 概率 1 成 立 ， 为 了 简化 表达 ， 我们 通常 省 略 “以 概率 1” 这 个 说 明 符 。 


确定 的 S 来 确定 一 个 好 的 分 类 器 (从 观测 D 了 的 角度 来 说 )， 这 种 想法 是 不 实际 的 ， 因 为 总 有 
一 定 的 概率 使 得 采样 获得 训练 数据 中 有 一 些 训 练 数据 对 于 分 布 DD 来 说 完全 不 具有 代表 性 。 
回 到 木瓜 的 例子 ， 即 使 岛 上 只 有 70% 的 木瓜 是 好 上 吃 的 ， 但 也 有 可 能 (尽管 几率 较 小 ) 我 们 尝 
到 的 所 有 木瓜 全 都 是 不 好 吃 的 。 在 这 种 情况 下 ，ERM, (S) 会 选择 一 个 固定 的 函数 标记 所 
有 的 木瓜 都 是 “不 好 吃 ” 的 (这 种 选择 对 于 岛 上 木瓜 的 真实 分 布 有 70% 的 错误 概率 )。 因 
此 ， Æ Lp,y(hs) 不 太 大 的 情况 下 ， 我 们 将 处 理 训练 样本 的 采样 概率 。 一 般 来 说 ， 我 们 将 采 
样 到 非 代 表 性 样本 的 概率 表示 为 6， 同时 1 一 6 在 该 预测 中 称 为 置信 参数 (confidence pa- 
rameter) 。 

由 于 无 法 保证 标签 预测 绝对 准确 ， 因 此 我 们 引入 男 外 一 个 参数 来 评价 预测 的 质量 ， 称 
为 精度 参数 (accuracy parameter), WN eo WME Lp, (hs) >e, MAMET AU, EE 
一 个 失败 的 预测 。 如 果 Lp,y(hs) 三 e， 我 们 认为 该 算法 输出 了 一 个 近似 正确 的 预测 。 因 此 
(固定 一 些 标记 函数 f:X 一 7)， 我 们 有 意 设 定 学 习 器 对 m- 组 实例 采样 失败 的 概率 上 界 ， 形 


AEs 设 S| .一 (zi， ae zm) 为 训练 实例 集 ， 其 上 界 为 


D"({S|;:;Lp, Ch) > e}) 
WH, 为 “ 差 ” 的 假设 集合 ， 也 就 是 
Hg = ih E H:Lp,;(h) >e} 
此 外 ， 设 
= {S|,: JA E H, Lg = 0} 
为 一 个 样本 的 误导 集 : 对 于 所 有 的 S|1; EM， 存 在 一 个 “ 差 ” 的 假设 hEX,， 使 其 看 上 去 
像 一 个 “好 ”的 假设 。 现 在 我 们 回顾 对 Lp,j (hs) >: 的 概率 限制 ， 因 为 假设 的 可 实现 性 意 
KA Ls(hs)=0, MA, RA4hEH,, Ls(hs)=OWM, Lop (hs) >e 的 情况 才 会 出 现 。 换 
句 话 说， 这 种 情况 发 生 的 充分 必要 条 件 是 我 们 的 样本 处 于 误导 样本 集 M P, ÉRE, R 
们 将 其 表示 为 
{S| ? : Lp. Chs) >e} CM 
注意 ，M 可 以 写 为 
M= 4, (S| 下 (2.5) 
因此 ， 
D"({ (Sl, :Lp,p(hs) > e}) <D"(M) = (S| -sL (h) = 0}) (2.6) 
接 下 来 ， 我 们 利用 联合 界 (概率 学 中 一 个 基本 的 性 质 ) 对 上 式 等 号 右边 的 公式 进行 上 界 
限制 。 
引 理 2. 2( 联 合 界 ) ”对 于 任意 的 集合 A，B 以 及 分 布 D， 有 
D(A U B) <D(A) + D(B) 
对 式 (2.6) 利 用 联合 界 引 理 ， 得 出 
"({S|,:Lp,(hs) >e} <= 2 Dr({8|s :Leth) = OF) (2.7) 
SS oa B 
下 面 ， 让 我 们 限制 上 述 不 等 式 中 右边 的 每 个 被 加 数 。 固 定 某 “ 差 ”假设 CH. 
Ls(h) 二 0 等 同 于 Vi, h(z;) 二 f(xi)。 由 于 训练 集中 的 样本 独立 同 分 布 采样 ， 我们 
得 到 
D"({S|,:Ls5(h) = 0})= D" US] z: Vi,h(z,) = fla;)}) 
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=|[? {xish(zxi) = fx;)}) (2. 8) 


对 于 训练 集中 每 个 独立 的 样本 ， 有 

D((2;:h€z;) = =1—Lp,r(h)R1l—e 
其 中 ， 最 后 一 项 不 等 式 由 hEXs 而 得 。 结 合 上 个 等 式 与 式 (2. 8) ， 利 用 不 等 式 1 一 es 委 e“， 
可 得 ， 对 于 所 有 的 hEXs 

TS) Leth) = 073 a Se (2.9) 
结合 此 公式 与 式 (2.7)， 可 得 

DUUS) Lrs) > e)) lle = Hle 

图 2. 1 展示 了 我 们 是 如 何 使 用 联合 界 的 。 





图 2.1 大 圆 中 的 每 个 点 表示 mm -组 中 一 个 可 能 的 实例 。 不 同 颜 色 的 椭圆 对 应 于 “ 差 ” 预 测 器 
hE€EXHg 的 m -组 误导 集 。ERM 规则 在 误导 训练 集 S 中 可 能 会 出 现 过 拟 合 。 也 就 是 说 ， 对 
于 某 些 hEXHp， 我 们 有 Ls (h) 二 0。 式 (2.9) 保 证 对 于 每 个 单独 的 差 假 设 hEHs， 至 多 训 
练 集 的 (1 一 e)” 部 分 会 被 误导 。 尤 其 当 x 越 大 ， 这 些 带 颜色 的 椭圆 会 变 得 越 小 。 其 面积 
表示 训练 集中 被 hEXs 误导 的 训练 集 ( 即 M 中 的 训练 集 ) 大 小 。 联 合 界 指出 : 这 些 被 误 
导 训 练 数据 的 最 大 面积 为 这 些 椭圆 面积 之 和 。 因 此 ， 其 上 界 为 | za | 乘 以 带 颜色 椭圆 的 
最 大 尺寸 。 带 颜色 椭圆 外 的 任何 样本 集 S 都 不 会 引起 ERM 规则 的 过 拟 合 


推论 2.3 设 姑 为 一 个 有 限 假设 类 ，6E (0，1)，e 记 0,，m 为 一 个 整数 ， 以 下 不 等 式 
m > EU M/S) 


从 而 对 于 任何 的 标记 函数 fy 任何 的 分 布 了 P， pe TRE hEH, Lp. (h)=0) 
保证 在 独立 同 分 布 的 样本 集 S 上 (S 的 势 为 办 ) 最 少 以 1 一 8 的 概率 ， 对 于 每 个 ERM 假设 
hs; 有 以 下 不 等 式 成 立 

Lp.(hs) Xe 


上 述 推论 告诉 我 们 : 对 于 足够 大 的 妈 来 说 ， 由 ERM; 规则 生成 的 有 限 假设 类 将 会 概 
率 ( 置 信 度 为 1 一 96) 近似 (误差 上 界 为 ©) 正确 。 在 下 一 章 中 ， 我 们 正式 定义 概率 近似 正确 
(PAC) 学 习 模 型 。 
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2. 1 多 项 式 匹 配 的 过 拟 合 : 我 们 看 到 式 (2. 3) 中 定义 的 预测 器 导致 过 拟 合 。 虽 然 这 些 预测 
全 看 起 来 非常 不 自然 ， 但 是 本 练习 的 目的 是 展示 它 能 够 被 多 项 式 阅 值 描 述 。 即 证 明 . 
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2.3 


第 一 部 分 理论 基础 





一 个 训练 集 S= {ax fx) }%, CG OR’ X{0, 1)", FHE-TFEBMKX ps 使 得 
hs(x) 二 1 的 充分 必要 条 件 是 ps (x) 宇 0， 其 中 hs 的 定义 同 式 (2.3)。 同 时 说 明 利 用 
ERM 规则 在 所 有 多 项 式 阔 值 类 的 学 习 可 能 导致 过 拟 合 。 

设 戏 是 定义 在 领域 集 直 上 的 二 值 分 类 器 组 成 的 假设 类 ， 有 了 为 区 上 的 未 知 分 布 ，j 了 为 对 中 
ii Beis. EH ACH, 证 明 Ls(h) 关 于 S|, HBAS L(A). BI 
E [Ls(h)] = Lo. lh) 


S|, ~D 


轴 对 称 矩 形 ; 平面 上 的 一 个 轴 对 称 矩 形 分 类 器 将 一 个 点 预测 为 1 的 充分 必要 条 件 是 
该 点 落 在 一 个 特定 的 抢 形 中 ， 形 式 上 ， 给 定 实数 aib, azb, EMAAR AG hla, 
pi，a2，p2) 为 
1] # a <2 <b Ha: Sq: K b: 
0 其 他 
所 有 平面 上 的 轴 对 称 和 矩形 形成 的 类 定义 为 : 

Hee = thea, sby säg sbo) +41 <b, E a: < bz} 


二 | C2. 10) 





图 2.2 轴 对 称 和 矩形 


注意 ， 这 是 一 个 有 限 假设 类 ， 该 练习 需要 证 明 以 下 可 实现 条 件 。 
D 设 A 为 一 个 算法 ， 其 返回 训练 样本 形成 的 最 小 矩形 ,证 明 A 是 一 个 基于 ERM 的 
算法 。 


2) 证 明 如 果 A 应 用 于 一 个 样本 个 数 之 2g42/ 2 的 训练 集 ， 其 最 小 以 1 一 8 的 概率 输 


一 个 最 大 误差 为 s 的 假设 。 
提示 : BREXLWHEDHD, +R*=Ral, ，b? ，a3 ，b2 ) 为 一 个 能 够 生成 标签 的 
矩 形 ，j 了 为 其 对 应 的 真实 假设 。w 三 Qi 为 一 个 使 得 矩形 Ri 一 R(a?r, a, as, 
by ) 的 概率 质量 (关于 也) 恰好 为 e/4 HA, AB. OD, a, bo 的 值 使 得 矩形 
一 bs ) 的 
概率 质量 恰好 为 e/4。 设 R(S) 为 A 返回 的 一 个 矩阵 ， 如 图 2.2 所 示 。 
e 证 明 RCS)CR’, 
© 证 明 如 果 S 包含 矩阵 R、R。、R;、R, 中 所 有 的 ( 正 ) 样 本 ,那么 A 返回 的 假设 
最 大 的 误差 为 e。 
@ 对 于 每 个 1E {1，…，4}, 求 S 不 包含 R; 中 任何 样本 的 概率 上 界 。 
e 利用 联合 界 总 结论 点 
3) Æ d 维 空间 R 中 重新 证 明 上 述 几 问 。 
4) 证 明 前 述 算法 A 能 在 基于 d，1/e 和 log(1/6) 的 多 项 式 时 间 内 完成 。 
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本 章 定义 一 般 学 习 模 型 一 一 概率 近似 正确 (PAC) 学 习 模 型 及 其 延伸 。 第 7 章 会 介绍 可 
学 习性 的 其 他 概念 。 


3.1 PAC 学 习 理 论 
前 面 的 章节 已 经 给 出 ， 在 经 验 风险 最 小 化 的 规则 下 ， 对 于 一 个 有 限 假 设 类 ， 如 果 有 足 


够 多 的 训练 样本 (训练 样本 的 数量 独立 于 潜在 的 分 布 ， 并 且 独 立 于 标记 函数 )， 那 么 输出 的 


假设 类 是 概率 近似 正确 的 。 现在 我 们 定义 概率 近似 正确 (PAC) 学 习 。 
定义 3. 1(PAC 可 学 习 ) 著 存在 一 个 函数 m: (0, 1)? SN 和 一 个 学 习 算 法 ， 使 得 对 


于 任意 e，6E(0，1) 和 上 的 任 一 分 布 D， 任 意 的 标号 函数 f: X>(0, 1), WREH, D, 


下 满足 可 实现 的 假设 ， 那 么 当 样 本 数量 m 宇 mj,(e，6) 时 ， 其 中 样本 由 分 布 DD 独 立 同 分 布 
采样 得 到 并 且 由 函数 f 标记 ， 算 法 将 以 不 小 于 1 一 6 的 概率 返回 一 个 假设 类 用 ， 使 该 假设 类 
h 满足 Lp, h) Ke. ; 

概率 近似 正确 可 学 习性 的 定义 包含 两 个 近似 参数 。 准 确 度 参数 e REHM Not ai Al 
最 优 分 类 器 之 间 的 距离 (这 对 应 于 “PAC” 的 “近似 正确 ”部 分 )， 置 信和 参数 6 表征 分 类 需 
达到 准确 要 求 的 可 能 性 (这 对 应 于 “PAC” 的 “概率 ”部 分 )。 在 我 们 研究 的 数据 访问 模型 
中 ， 这 些 近似 是 不 可 避免 的 。 由 于 训练 集 是 随机 生成 的 ， 因 此 始终 有 可 能 发 生 样本 不 提供 
信息 的 小 概率 事件 的 情况 (例如 ， 始 终 有 可 能 出 现 这 种 情况 ， 经 过 不 断 采 样 ， 训 练 集 恰好 
只 包含 一 个 数据 点 ) 。 更 进一步 ， 即 使 我 们 足够 幸运 得 到 一 个 训练 样本 ， 它 能 够 很 好 地 代 
表 D， 由 于 这 是 一 个 有 限 样本 ， 因 此 D 的 很 多 细节 依然 不 能 被 反映 出 来 。 准 确 度 参数 <， 允 
Vik BIN ak HH | Fac o 

采样 复杂 度 

PRI mj :(0，1)* 一 NN 决定 学 习 假 设 类 XH 的 采样 复杂 度 : 保证 一 个 概率 近似 正确 解 所 需 
的 样本 数量 。 采 样 复杂 度 是 准确 度 参数 s 和 和 置信 参数 6 的 一 个 函数 。 采 样 复 杂 度 也 依赖 于 
假设 类 KH 的 属性 一 一 比如 ， 对 于 一 个 有 限 假 设 类 ， 我 们 发 现 采 样 复 杂 度 依赖 于 假设 类 KH 热 
的 对 数 形式 。 

如 果 假 设 类 XH 是 PAC 可 学 习 的 ， 有 很 多 函数 m, 满足 PAC 可 学 习 定 义 给 出 的 条 件 。 
因此 ， 为 了 更 加 精确 ， 我 们 定义 假设 类 7K 的 采样 复杂 度 为 最 小 函数 ， 即 对 于 任意 的 e Ald, 
myles DEWE PAC 可 学 习 条 件 的 最 小 整数 。 

回顾 上 一 章 介 绍 的 有 限 假 设 类 的 分 析 及 结论 。 可 以 重新 表述 为 : 


引 理 3.2 任 一 有 限 假 设 类 是 PAC 可 学 习 的 ， 其 采样 复杂 度 满足 
My Er =. joeda UHI | 
E 


也 存在 无 限 假设 类 是 可 学 习 的 (例如 练习 3. 3)。 随 后 ， 我 们 会 给 出 “决定 一 个 类 是 否 
是 PAC 可 学 习 的 ”不 是 假设 类 的 势 有 限 还 是 无 限 ， 而 是 根据 一 种 名 叫 VC 维 的 组 合 测度 。 





3.2 更 常见 的 学 习 模型 


前 面 给 出 的 模型 很 容易 加 以 推广 ， 可 以 和 更 广 的 学 习 任务 相关 联 。 我 们 考虑 两 种 形式 
的 泛 化 : 

1. 去 掉 可 实现 假设 

我 们 的 学 习 算 法 在 分 布 为 D 和 标记 函数 为 /上 学习 成 功 ， 是 基于 可 实现 假设 的 前 提 。 
对 于 实际 的 任务 ， 这 种 假设 可 能 太 严 格 了 (我 们 真 的 能 保证 存在 一 个 矩形 区 域 ， 它 完全 决 
定 哪些 木瓜 是 好 吃 的 ?)。 下 一 节 会 给 出 不 可 知 PAC 模型 ， 将 可 实现 假设 去 掉 。 

2. 学 习 问 题 不 只 是 二 分 类 问题 

到 目前 为 止 ， 我 们 讨论 的 还 是 给 定 一 个 样本 预测 二 值 标号 (比如 好 吃 还 是 不 好 吃 )。 然 
而 ， 有 许多 其 他 形式 的 学 习 任 务 。 例 如 ， a 
从 一 个 有 限 标号 集 里 面 选 出 一 个 标号 (例如 明天 报纸 头条 的 主题 )。 研 究 证 明 我 们 可 以 定义 
各 种 损失 函数 来 将 学 习 推 广 。 这 部 分 内 容 会 在 3. 2. 2 市 介绍 。 


S 2; | 


1. 一 种 更 实际 的 数据 生成 分 布 模型 

可 实现 假设 要 求 存在 一 个 h* EH 使 得 PP,~_pLh* (a) =f) J=1. 在 很 多 实际 问题 中 ， 
这 种 假设 并 不 成 立 。 此 外 ， 最 好 不 要 假设 标记 完全 由 我 们 假定 的 特征 决定 (在 木瓜 的 例子 
中 ， 两 个 相同 颜色 相同 软 硬 程度 的 木瓜 味道 有 可 能 并 不 相同 )。 接 下 来 ， 我 们 放宽 可 实现 
的 假设 ,把 “目标 标记 函数 ”替换 为 更 灵活 的 概念 一 一 数据 标记 生成 分 布 。 

从 现在 起 ， 在 形式 上 ,将 D 定 义 为 *X》 上 的 概率 分 布 ， 和 之 前 一 样 ， 其 中 守 为 定义 
W, 为 标签 集合 (一 般 我 们 认为 了 二 {0，1})。 即 D 是 定义 域 和 标签 集 上 的 联合 分 布 。 我 们 
可 以 将 该 分 布 分 解 为 两 部 分 : 未 标记 定义 域 点 的 概率 分 布 D, (也 称 为 边缘 分 布 ) 和 每 个 定义 
域 点 标记 的 条 件 概 率 分 布 D((zx，y)1x)。 在 木瓜 的 例子 中 ，D, 决定 碰 到 一 个 木瓜 (其 颜色 
和 软 人 刹 程 度 落 在 某 一 范围 内 ) 的 概率 ， 条 件 概率 表示 x 所 表示 的 颜色 和 软 硬 程度 对 应 的 木 
瓜 好 吃 的 概率 。 在 这 种 情况 下 ， 确 实 存在 相同 颜色 和 软 硬 程度 的 木瓜 分 属 不 同类 的 情况 。 

2. 改进 后 的 经 验 误差 和 真实 误差 

对 于 XX 站 上 的 概率 分 布 D， 根 据 分 布 D 随 机 生成 的 带 标签 的 数据 点 ， 我们 可 以 测量 假 
设 h 犯错 的 可 能 性 。 sata AOSE h ni initia 为 


inh) = N r _[h(z) y] EDU {(x,y):h(x) Æ y}) (3.1) 


我 们 想 要 找到 一 个 预测 器 h, 使 得 上 述 误差 最 小 化 。 然 而 ， 学 习 器 并 不 知道 数据 生成 
分 布 P。 学 习 器 知道 的 是 训练 数据 S。 经 验 风 险 依旧 是 原来 定义 的 形式 ， 即 
Lh) = {i € [m]:h(a;) F yi} | 


给 定 S， 对 于 任何 的 函数 hh:X 一 {0，1}， 学 习 器 都 可 以 计算 Leth). ER. Ls(h) = 
Loasa CA) o 

3. 目标 

我 们 想 要 找到 假设 h: >V, WEER Lp (AB), 

4. eye 

给 定 庆 X{0，1} 上 的 任意 概率 分 布 D， 将 映射 到 {0，1} 的 最 好 的 预测 器 是 
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+ (ply=1la2]>1/2) 
alps a Ly kæ] 

很 容易 验证 (练习 3. 7) ， 对 于 任意 的 概率 分 布 D， 贝 叶 斯 最 优 分 类 器 万 是 最 优 的 ， 其 他 
的 分 类 器 g: 世 ->{0，1)} 没 有 更 低 的 错误 率 。 即 对 任意 的 分 类 筑 g. Lp p) SL (g)- 

可 惜 ， 我 们 不 RESA, 不 能 使 用 这 个 最 优 分 类 器 fj 。 学 习 器 只 能 获取 训练 样 
本 。 我 们 现在 给 出 不 可 知 PAC 可 学 习 的 正式 定义 ， 很 自然 地 将 PAC 可 学 习 推 广 到 更 现实 
的 情况 ， 就 如 之 前 讨论 的 ， 假 定 不 可 实现 。 

很 明显 ， 我 们 不 能 期 望 学 习 算 法 给 出 一 个 假设 ， 其 误差 小 于 最 小 可 能 的 误差 ， 即 贝 叶 
斯 分 类 器 的 误差 。 我 们 在 之 后 会 给 出 证 明 ， 如 果 对 数据 生成 分 布 不 做 先 验 假设 ,没有 算法 
能 够 保证 找到 一 个 和 贝 叶 斯 最 优 分 类 器 一 样 好 的 预测 器 。 我 们 希望 学 习 算 法 能 够 找到 一 个 
预测 器 ， 其 误差 和 给 定 假设 类 中 最 好 预测 器 的 误差 相差 不 大 。 当 然 ， 这 种 要 求 的 强度 取决 
于 假设 类 的 选取 。 

定义 3. 3( 不 可 知 PAC 可 学 习 ) ”车 存在 一 个 函数 m: (0，1) 一 N 和 一 个 学 习 算 法 
A， 使 得 对 于 任意 e，6E (0，1) 和 一 》 上 的 任 一 分 布 D， 当 样本 数量 mm, (e，6) 时 ， 其 
中 样本 由 分 布 卫 独 立 同 分 布 采样 得 到 ， 算 法 将 以 不 小 于 1 一 8 的 概率 返回 一 个 假设 类 用 ， 使 
该 假设 类 有 几 满足 

Lp(h) < mipLp(h )+e 


很 明显 ， 如 果 满 足 可 实现 假设 ,不 可 知 PAC 学 习 和 PAC 学 习 给 出 了 相同 的 保证 。 这 


样 看 来 ， 不 可 知 PAC 学 习 是 PAC 学 习 的 一 种 泛 化 。 当 不 满足 可 实现 的 假设 时 ， 学 习 需 是 


不 能 保证 任意 小 的 误差 的 。 然 而 ， 在 不 可 知 PAC 学 习 的 定义 下 ， 即 使 和 假设 类 中 最 好 的 


分 类 器 有 些许 差距 ， 学 习 需 依然 可 以 认为 学 习 成 功 。 而 PAC 学 习 要 求学 习 天 学 到 的 分 类 
右 ， 其 误差 达到 一 个 很 小 的 绝对 值 ， 而 且 和 假设 类 可 达到 的 最 小 误差 没有 关系 。 


3.2.2 学 习 问 题 建 模 
接 下 来 ,我们 将 模型 进一步 拓展 ， 使 之 能 应 用 到 更 广 的 学 习 任 务 中 。 让 我 们 来 看 一 
其 他 学 习 任 务 。 
e 多 分 类 ”我 们 的 分 类 问题 不 再 是 二 分 类 问题 。 比 如 文本 分 类 问题 : 我 们 希望 设计 一 
个 程序 ， 能 够 将 文档 按 其 主题 进行 分 类 (比如 ， 新 闻 、 体 育 、 生 物 、 医 学 ) 。 对 于 这 
类 任务 ， 学 习 器 需要 根据 已 有 的 正确 分 类 的 文档 ， 生 成 一 个 程序 ， 对 新 文档 给 出 其 
相应 的 主题 。 我 们 可 以 将 文档 用 一 系列 的 特征 来 表示 ， 特 征 可 以 是 文档 中 不 同 关键 
词 出 现 的 频数 ， 或 者 其 他 相关 的 特征 (比如 文档 的 大 小 及 来 源 )。 在 这 个 任务 里 ， 标 
签 集 是 所 有 可 能 的 主题 的 集合 (可 以 是 任意 大 的 有 限 集 )。 一 旦 我 们 定义 了 定义 域 
和 标签 集 ， 主 体 框架 的 其 他 部 分 和 木瓜 例子 看 起 来 很 相似 ; 我 们 的 训练 样本 是 有 限 
的 序列 (特征 向量 ， 标 签 ) 对 ， 学 习 需 输出 一 个 从 定义 域 到 标签 集 的 函数 ， 最 后 ， 为 
了 测试 学 习 是 否 成 功 ， 我 们 可 以 用 分 类 需 给 出 错误 标签 的 概率 来 表示 。 
e 回归 问题 在 这 类 问题 中 ， 和 希望 找到 数据 的 简单 模型 一 一 数据 蒜 和 JJ 之 间 的 关联 函 
数 。 比 如 ， 希望 找到 一 个 线性 函数 ,根据 超声 波 检 测 到 的 婴儿 头 围 、 腹 围 和 股骨 长 
度 ， 能 够 最 好 地 预测 出 婴儿 出 生 时 的 体重 。 在 这 里 ， 定 义 域 上 是 RR (三 个 超声 波 检 
测量 ) 的 一 个 子 集 ， 标 签 集 ) 是 实数 集 ( 以 克 为 单位 的 体重 )。 在 此 语 境 下 ， 称 为 目标 
集 更 为 合适 。 这 就 是 我 们 的 训练 数据 和 输出 (有 限 序列 (x，y) 对 ， 从 到 了 的 映射 函 





数 )。 然 而 ， 度 量 是 否 成 功 的 标准 不 再 和 之 前 一 样 。 我 们 可 以 用 期 望 平方 差 来 评估 
假设 函数 h: X>VA EA EAS 即 
Loh) = .E, (h(x) — y)? (3. 2) 


为 了 满足 各 式 各 样 的 学 习 任 务 ， 我 们 将 学 习 是 否 成 功 的 度量 进行 如 下 泛 化 ; 

广义 损失 函数 

给 定 任意 集合 区 (相当 于 我 们 的 假设 类 或 模型 ) 和 定义 域 Z， 令 2 为 XZ 到 非 负 实数 的 
一 个 映射 函数 ，Z: ZX ZR, 。 我 们 称 这 种 限 数 为 损失 另 数 。 

需要 注意 ， 对 于 预测 问题 ， 有 Z 二 XY》。 然 而 ， 我 们 定义 的 损失 函数 已 经 超出 了 预测 
任务 的 范畴 ， 因 此 可 以 允许 Z 可 以 是 任意 形式 的 定义 域 ( 比 如 ， 在 无 监督 学 习 问题 中 (例如 
第 22 章 )，Z 不 再 是 实例 空间 和 标签 集 的 乘积 形式 )。 

PEE AP Aten mere hEH, Z 上 的 概率 分 布 为 D， 即 

Leth) = E Lh, z) ] (3..3) 


也 就 是 说 ， 目 标 > 是 从 分 布 D 上 随机 采集 到 的 ， 我 们 考虑 假设 类 h 在 目标 z 的 期 望 损 
失 。 与 之 类 似 ， 可 以 定义 经 验 风 险 为 给 定数 据 集 S= zis ts Zm) EZ” CWIK, BI 


Ls(h) = = >) ehz) (3. 4) 
i=l 


前 面 的 分 类 和 回归 问题 的 损失 函数 采用 的 是 下 述 形 式 : 
o 0 一 1 损失 : 在 这 里 ， 随 机 变量 > el HR RRO 
0 #ACD)=—y 
loi Ch: AAR = = jl # h(a) Hy 
这 类 损失 函数 用 在 二 分 类 或 多 分 类 问题 中 。 
需要 注意 的 是 ， 对 于 随机 变量 a, PEX, 1}. E-pla] =P-ple=1]. AWE, WF 
这 类 损失 函数 ， 式 (3. 1) 和 式 (3. 3) 给 出 的 Lp (A) E— EY. 
e 平方 损失 : 在 这 里 ， 随 机 变量 z 取 值 序列 对 集合 芯 X 了 ， 损 失 函 数 为 
flra — l= 
这 类 损失 函数 用 在 回归 问题 中 。 
我 们 会 在 后 续 章 节 看 到 很 多 这 类 损失 函数 的 实例 。 
总 结 一 下 ， 我 们 正式 定义 广义 损失 函数 下 的 不 可 知 PAC 学 习 。 


定义 3.4( 广 义 损 失 函 数 下 的 不 可 知 PAC 可 学 习 ) 对 于 集合 Z 和 损失 函数 1; UXZ— 
Ri, FAE- ABk my: (0，1)* 一 N 和 一 个 学 习 算 法 ,使 得 对 于 任意 e，65E (0，1)， 
以 及 Z 上 的 任 一 分 布 D， 当 样本 数量 mm, (e，6) 时 ， 其 中 样本 由 分 布 轧 独立 同 分 布 采样 
得 到 ， 算 法 将 以 不 小 于 1 一 6 的 概率 返回 一 个 假设 类 有 及， 使 该 假设 类 甩 满 足 
Lp(h) < minLp(h ) +e 
# P Ly (h)=E.~plLeh, z)]. 


评注 (关于 可 测量 性 " ) 在 前 面 的 定义 中 ， 对 于 任意 的 EK, RI Ch, +): HXZ>R: 
饮 为 随机 变量 ,定义 Lp (1) 为 该 随机 变量 的 期 望 值 。 因 此 ， 我 们 需要 要 求 LX(h,。 ) 是 可 测 
量 的 。 形 式 上 ， 我 们 假定 存在 一 个 Z 的 oc- 代数 子 集 ， 以 及 其 上 的 概率 分 布 D，R; 的 每 个 
分 割 的 原 像 在 这 个 c -代数 里 。 在 0 一 1 损失 的 二 分 类 情况 下 ，c -代数 在 tX{0, 1} 上 , 在/ 
上 的 假设 相当 于 假设 对 于 任意 的 产 ， 集 合 {(z，ACz))， ZE4) 是 c- 代 数 。 
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评注 (完全 与 自主 表示 学 习 * ) 在 前 面 的 定义 中 ， 我 们 要 求 算法 从 戏 中 返回 一 个 假设 。 
在 某 些 情况 下 ,7X4 是 XW' 的 一 个 子 集 ， 损 失 函 数 可 以 拓展 为 一 个 从 XK' XZ 到 实数 的 函数 。 在 这 
种 情况 下 ， 我 们 允许 算法 返回 一 个 假设 hEX ， 只 要 它 满足 Lp (h )KminLp (A) +e, 允许 算 
法 从 ZW' 返 回 一 个 假设 ， 称 为 自主 表示 学 习 ， 完 全 学 习 要 求 算 法 必须 从 姑 中 返回 一 个 假设 。 自 
主 表示 学 习 有 时 也 称 为 “不 完全 学 习 ”， 尽 管 在 自主 学 习 中 并 不 存在 不 恰当 的 情况 。 


3.3 小 结 

这 一 音 定义 了 主要 的 正式 学 习 模 型 一 一 PAC 学 习 。 基 本 模型 基于 可 实现 的 假设 ， 不 
可 知 PAC 学 习 对 样本 分 布 不 做 限制 。 我 们 也 将 PAC 模型 推广 到 任意 损失 函数 的 情况 。 我 
们 有 时 将 最 通用 的 模型 简称 为 PAC 学习， 省略“ 不 可 知 ” 这 个 前 级 ， 让 读者 从 上 下 文中 
体会 潜在 的 损失 也 数 是 什么 。 再 次 强调 最 原始 的 PAC 模型 基于 可 实现 的 假设 。 第 7 章 会 
探讨 可 学 习 的 其 他 概念 。 


3.4 文献 评 ; 

XT MC Fa FE eK BR AS AN BY A PAC 可 学 习 的 基本 定义， 参考 Vladimir Vapnik 和 
Alexey Chervonenkis 的 著作 (Vapnik 和 Chervonenkis 1971)。 特 别 是 ， 我 们 遵循 了 Vap- 
nik 关 学 习 的 一 般 设 定 (Vapnik 1982, Vapnik 1992, Vapnik 1995, Vapnik 1998) 。 

PAC 学 习 一 词 由 Valiant(1984) 提 出 。Valiant 由 于 提出 PAC 模型 ， 获 得 了 2010 年 的 
图 灵 奖 。 在 Valiant 给 出 的 定义 中 采样 复杂 度 是 关于 1/e、1/6、 假 设 类 的 势 的 多 项 式 ( 也 可 
以 参考 Kearns 和 Vazirani(1994)) 。 我 们 将 会 在 第 6 章 看 到 ， 如 果 一 个 问题 是 PAC 可 学 习 
的 ， 那 么 采样 复杂 度 是 关于 1/e、log(1/6) 的 多 项 式 。Valiant 的 定义 还 要 求 算 法 的 运行 时 
间 是 这 些 变 量 的 多 项 式 时 间 。 相 比 之 下 ,我 们 希望 将 学 习 的 统计 方面 和 计算 方面 分 割 开 
来 。 第 8 章 会 详细 介绍 计算 方面 的 内 容 。 最 后 ， 将 不 可 知 PAC 学 习 规 范 化 的 工作 应 归功 
于 Haussler(1992) 。 


3.5 练习 


3.1 样本 复杂 度 的 单调 性 : 令 央 为 二 分 类 任务 的 一 个 假设 类 。 假 定 是 PAC 可 学 习 的 并 
上 且 其 样本 复杂 度 由 mC ，. ) 给 出 。 证 明 ”对 其 每 个 参数 是 单调 非 增 的 。 即 证 明 给 
Æ 6€E(0，1) 和 0<elez 二 1， 有 my (sl，0) 过 xy (eg ，9) 。 类 似 地 ， 证 明 : 给 定 sE 
(0，1) 和 OKA KA], 有 my, (es， 61) 二 my (es 02). 

3.2 SXA BR BUM, Hsen = {h z EXU}, HMR cer, h 为 一 函数 ， 定 
义 为 : WR r=z Whe =1, WR az ihe) =0. h 表示 全 负 假 设 ， 即 Y xE 
X, Ah (z) 一 0。 在 这 里 可 实现 假设 表示 正确 假设 f 将 定义 域 的 所 有 样本 都 标记 为 
负 ， 有 一 个 例外 。 

3.3 SX=R, V={(0, 1}, SHAY AEWA ARIK, BH={h:rER }, 其 中 
h,(x)=llleli<, WEH: Het PAC 可 学 习 的 (假定 可 实现 )， 并 且 样 本 复杂 度 的 上 界 为 


mses 可 es] 
3.4 本 练习 中 ,我 们 考虑 布尔 连词 假设 类 问题 。 实 例 空间 为 = {0,1}*， 标签 集 为 


J 一 《0， Lis 变量 Ti, "t9 Tå 用 布尔 困 数 形式 表示 为 : 对 某 些 1€ [d], f(x)= Ti, 
对 某 些 iE [4d]，f(x) 一 1 一 zx;。 我 们 用 符号 去 来 表示 1 一 zx;。 连 接 可 以 是 任意 的 积 形 





3.9 


3.6 


3. 7 


3.8 


3.9 





st. fete RR. BAKA. BAN, BACK) Sa ° (1-2, 5A x Az. 
将 假设 类 表示 为 4 维 变量 的 所 有 连接 形式 。 空 连接 定义 为 全 正 假设 ( 即 ， 对 于 所 

有 的 x， h(x) 二 1)。 连 接 zi 和 xz1 (相似 地 ， 字 符 与 其 取 反 形式 相连 ) 是 可 以 存在 的 ， 

并 定义 为 全 负 假 设 ( 即 ， 对 于 所 有 的 x，h(x) 二 0)。 我 们 假定 可 实现 : 即 ， 我 们 假定 

存在 一 个 布尔 连接 可 以 正确 生成 上 述 标签 。 因 此 ， 每 个 样本 (x，y) EXXJ 包 含 d 维 

变量 zx; +, ta 的 一 种 组 合 形式 ， 以 及 其 真实 标签 (0 为 错误 ，1 为 正确 )。 

例如 ， 另 4 二 3， 假定 正确 连接 方式 为 a 人 x;。 那 么 训练 集 S 可 以 包括 如 下 
实例 : 
CI, ls l» 0s CC, Ox Ds Ds CO, 1, O» 02. 《tl 0, OF, D 
证 明 : d 维 变量 的 所 有 连接 形式 组 成 的 假设 类 是 PAC 可 学 习 的 并 且 给 出 其 样本 

复杂 度 的 上 界 。 给 出 一 种 ERM 规则 下 的 实现 方式 ， 并 要 求 时 间 复 杂 度 是 关于 d.m 

的 多 项 式 。 

令 二 为 定义 域 ， Di, Da Dm 为 七 上 的 一 系列 分 布 。 SHX EXT IRRA R 

假设 类 ， 其 中 f€EXHW。 假 定 现 有 一 样本 集 S， 有 m 个 样本 ， 实 例 是 彼此 独立 但 并 非 出 

自 同一 分 布 ; 第 i 个 样本 来 自分 布 D:，y; Hf) SDa 表示 平均 值 ， 即 ，D; = 

(Di+++++Dm)/m, 

固定 参数 eeE (0，1)。 证 明 : 

PL IhENSs.t. Lo ph)>e H Lip (h)=0]<IHle™ 

提示 : 使 用 均值 不 等 式 。 

SHA X 上 关于 二 分 类 器 的 假设 类 。 证 明 : 如 果 姑 不 可 知 PAC 可 学 习 ， 则 多 同样 也 

是 PAC 可 学 习 的 。 此 外 ， 对 于 戏 ，A 是 一 种 成 功 的 不 可 知 PAC 学 习 算 法 ， 则 对 于 

H, A 也 是 一 种 成 功 的 PAC 学 习 算 法 。 

“ 贝 叶 斯 最 优 预测 器 : 证 明 对 任意 的 概率 分 布 P， 贝 叶 斯 最 优 预测 器 fp 是 最 优 的 ， 

换言之 ， 对 从 tt 到 {0，1) 的 每 个 分 类 器 g, Lop) SLp e). 

“在 概率 分 布下， 对 所 有 的 SEX, 1)”, Me Lp (A(S))<Lp(B(S)), Mi 

认为 在 该 分 布下 学 习 算法 A 优 于 算法 B。 如 果 对 XX{0，1} 上 的 所 有 概率 分 布 D， 都 

满足 上 式 ， 则 认为 学 习 算 法 A 优 于 算法 B。 

1) 标签 概率 预测 器 是 一 映射 函数 ， 对 于 定义 域 的 每 个 点 zx 都 给 定 一 概率 值 ， h(x) EE€ 
L0，1j， 即 预测 标签 为 1 的 概率 值 。 换 言 之 ， 给 定 一 个 h 和 一 个 输入 zx， 的 标 
签 可 以 通过 模拟 成 抛 硬币 来 预测 ， 硬 币 正 面 朝 上 的 概率 为 h(x)， 当 且 仅 当 硬 币 正 
面 朝 上 时 预测 标签 为 1。 我 们 定义 标签 概率 预测 为 一 函数 h: 一 [0，1]。 该 假设 
郧 数 h 在 样本 (x，y) 上 的 损失 为 |h(z) 一 y| ， 也 就 是 的 预测 值 不 等 于 yy 的 概率 
值 。 如 果 有 hh 已 确定 ， 返 回 值 介 于 {0，1)， My |ACxr)—y | = noss 证明， 对 于 
X10，1} 上 的 任 一 数据 生成 分 布 D， 贝 叶 斯 最 优 预 测 器 的 风险 最 小 (损失 函数 
tC(h，(zx，y)) 二 |h(z) 一 y| ， 对 所 有 可 能 的 标签 预测 器 ， 包 括 输出 概率 值 的 预测 器 ) 。 

2) 令 4 为 定义 域 ，{0，1} 为 标签 集 。 证 明 : 对 庆 X{0，1} 上 的 每 个 概率 分 布 D， 存 在 
一 学 习 算 法 Ap 好 于 其 他 所 有 关于 D 的 学 习 算 法 。 

3) 证 明 : 对 任 一 学 习 算法 A， 存 在 一 个 概率 分 布 DP 和 一 个 学 习 算 法 B， 使 学 习 算 法 B 
不 差 于 学 习 算 法 A。 

考虑 PAC 模型 的 一 种 变 体 ， 其 中 有 两 种 样本 神 论 : 根据 t+ 上 的 潜在 分 布 D， 一 个 生成 

正 样本 数据 ， 男 一 个 生成 负 样 本 数据 。 给 定 一 目标 函数 æl, 1}, SD 表示 
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Xt 二 {TEX;f(z) 二 1} 上 的 概率 分 布 ， 对 任意 的 ACX+， HD (A)= 一 D(A)/D(XT)， 
同样 ，D- 是 由 D 推 导出 的 -上 的 分 布 。 

PAC 可 学 习 在 两 神 论 模 型 中 的 定义 和 标准 定义 基本 相同 ， 不 同 于 标准 定义 ， 此 
处 学 习 算 法 可 以 从 DT 中 获取 my (e， 加 个 独立 同 分 布 的 样本 ， 从 DD 中 获取 mz (Ce. 8) 
个 独立 同 分 布 的 样本 。 学 习 算 法 的 目标 是 输出 h， 约 束 条 件 是 : 以 不 小 于 1 一 6 的 概率 
〈 在 两 个 训练 集 上 的 预测 ， 也 可 以 是 学 习 算法 给 出 的 非 确 定性 决策 )，Lao+ (Co 入 se 并 
Alo pS. 
“1) 证 明 : He PAC 可 学 习 的 (在 标准 模型 中 ) ， 那 么 Mi 在 二 神 论 模 型 中 也 是 PAC 可 
学 习 的 。 


”2) 定义 六 为 always-plus 假设 ,hh 为 always-minus 假设 。 现 假定 At, h CH. 证 


H: 如 采 戏 在 两 神 论 模 型 中 是 PAC 可 学 习 的 ， 那么 区 在 标准 模型 中 也 是 PAC 可 
学 习 的 。 
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我 们 讨论 过 的 第 一 个 正式 学 习 模 型 是 PAC 模型 。 第 2 章 已 经 表明 在 可 实现 的 假设 下 ， 
任何 有 限 的 假设 类 都 是 PAC 可 学 习 的 。 在 这 一 章 中 ， 我 们 将 开发 一 个 通用 的 工具 一 一 一 
和 致 收 化 ， 并 用 它 来 表明 在 有 一 般 损 失 函 数 的 不 可 知 PAC 模型 中 ， 只 要 距离 损失 函数 是 有 
界 的 ， 任 何 有 限 类 都 是 可 学 习 的 。 


4. 1 一 致 收敛 是 可 学 习 的 充分 条 件 

本 章 讨论 的 学 习 条 件 背 后 的 思想 很 简单 。 回 想 一 下 ,已 知 一 个 假设 类 姑 ，ERM 学 习 
范式 工作 方式 如 下 : 一 旦 接收 一 个 训练 样本 S， 学 习 需 评估 每 一 个 戏 中 的 天 对 于 已 知 样本 
的 损失 (或 误差 ;， 并 且 输 出 区 中 的 一 个 最 小 化 经 验 风 险 的 元 素 。 我 们 希望 关于 样本 S 的 可 
以 最 小 化 经 验 风 险 的 hh 也 是 一 个 关于 真实 数据 概率 分 布 的 风险 最 小 化 (或 者 是 风险 接近 最 
小 化 ) 。 那 么 ， 它 足以 保证 叉 中 的 所 有 元 素 的 经 验 风 险 是 它们 真实 风险 的 一 个 很 好 的 近似 。 
换 名 话说， 我 们 需要 假设 类 中 所 有 的 假设 都 是 一 致 的 ， 经 验 风险 将 会 接近 真实 风险 ， 表 达 
式 如 下 所 示 。 

定义 4. 1(e -代表 性 样本 ) 如 果 满 足下 列 不 等 式 : 

Vh EH, |Ls(h) —Loth)|<e 

一 个 训练 集 S 就 称 作 es -代表 性 样本 (关于 定义 域 Z， 假 设 类 天， 损失 函数 & 和 分 布 DD)。 

下 一 个 简单 的 引 理 说 明 只 要 样本 是 e/2- 代 表 性 的 ， 就 可 以 保证 ERM 学 习 规 则 返回 一 
个 好 的 假设 。 

引 理 4.2 假设 一 个 训练 集 S 是 e/2 -代表 性 的 (关于 定义 域 Z， 假 设 类 允 ， 损 失 函 数 V 
和 分 布 D)。 那 么 ， 任 何 一 个 ERM; (CS) 的 输出 ， 即 任意 hs © argminLs (h) ai it X 

Lp (hs) < minLp (h) ==€ 


WEAR 对 于 所 有 的 hEX， 
ed a Lethe + = E hth) pE =< Lp fh) th LE = Lath) +e 


其 中 第 一 个 和 第 三 个 不 等 式 是 由 于 S 是 s/2 -代表 性 的 假设 (定义 4. 1)， 第 二 个 不 等 式 成 立 
因为 hs 是 ERM 预测 器 的 结果 。 

上 面 的 引 理 表明 为 了 确保 ERM 规则 是 一 个 不 可 知 PAC 学 习 器 ， 应 该 满足 至 少 在 概率 
1 一 6 下 随机 选择 一 个 训练 集 ， 它 将 是 。 -代表 性 训练 集 。 一 致 收敛 条 件 形式 化 了 这 个 要 求 。 

定义 4. 3( 一 致 收敛 ) ”如 果 一 个 假设 类 满足 如 下 条 件 ， 那 么 它 就 有 一 致 收 人 证 性 质 ( 关 
于 定义 域 Z 和 损失 函数 0): 存在 一 个 函数 mY ，(0，1)*>N 使 得 对 于 所 有 e，6E (0，1) 
和 在 上 的 所 有 概率 分 布 D， 如 果 S 是 从 D 得 到 的 一 个 独立 同 分 布 的 满足 mn 宇 mW (se，6) 的 
样本 ， 那 么 ， 至 少 在 概率 1 一 6 下 ，S 是 s -代表 性 的 。 


相似 于 PAC 学 习 中 样本 复杂 度 的 定义 ， 函 数 x 巡 度量 了 获得 一 致 收敛 性 质 的 (最 小 ) 
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样本 复杂 度 ， 即 我 们 需要 多 少 样本 来 确保 至 少 在 概率 1 一 6 下 ， 样 本 是 e -代表 性 的 。 

一 致 性 在 这 里 指 的 是 在 定义 域 中 所 有 可 能 的 概率 分 布下 ， 用 于 所 有 # 中 的 元 素 ， 有 一 
个 固定 的 样本 大 小 。 

下 面 的 推论 直接 来 自 于 引 理 4. 2 和 一 致 收敛 的 定义 。 

推论 4.4 如果 类 姑 关 于 函数 1 中 有 一 致 收 你 的 性 质 ， 那 么 这 个 类 是 样本 复杂 度 为 
myles KME (e/2，6) 的 不 可 知 PAC 可 学 习 的 。 而 有 全， 在 那 种 情况 下 ，ERM? 范式 是 关 
FHRA RT PAC 可 学 习 的 。 


4.2 有限 类 是 不 可 知 PAC 可 学 习 的 

鉴于 推论 4.4， 只 要 我 们 确定 对 于 一 个 有 限 假 设 类 ， 一 致 收 剑 成立， 那么 每 个 有 限 假 
设 类 都 是 不 可 知 PAC 可 学 习 的 。 

为 了 说 明 一 致 收敛 成 立 ， 类 似 于 第 2 章 的 推 时 ,我 们 用 两 步 的 论证 。 第 一 步 用 联合 
界 ， 第 二 步 用 测度 集中 度 不 等 式 。 现 在 我 们 具体 地 解释 这 两 步 。 

国定 <e，6。 我 们 需要 找到 一 个 样本 大 小 m 可 以 保证 下 面 的 条 件 成 立 : 对 于 任何 D， 至 
少 在 概率 1 一 6 下 ， 从 了 DD 中 采样 得 到 的 独立 同 分 布 的 样本 的 选择 S= Ces ts Zm) HFA 
A hEH, |Ls(h)—Lp(H)| Ke 成 立 。 也 就 是 ， 

D"({S: Yh E H,|Ls(h) —Lo(h)|<e}) > 1-6 
同样 ， 我 们 需要 证 明 
D"({S: Jh €CH,|Ls(h) —Lo(h) |>€}) <8 


写 出 


un 


{S; Jh €H,|Lsth) —Lpth)|>e} = hy, {S:|Ls(h) —Lpth)|>e} 
并 且 应 用 联合 界 ( 引 理 2. 2) ， 我 们 得 到 : 
Ds Jk CH, ILO -irt SD < SYS: | Lh) Io Sa (OD 


hEH 
第 二 步 是 为 了 证 明 这 个 不 等 式 右 边 的 每 个 被 加 数 都 足够 小 (对 于 一 个 充分 大 的 mm), tL 
是 说 ， 我 们 将 要 证 明 对 于 任意 固定 的 类 /( 它 是 在 训练 集 的 采样 之 前 提前 选择 的 ) ， 真 实 风 险 
HAW GZ la) SERB | Ls (h) —Lp (A) | 可 能 很 小 。 


FI Lo WD = Bp h DJM L W = 4S) hz) 。 由 于 每 个 都 从 D 中 独立 同 分 布 
i=] 


采样 得 来 ， 随 机 变量 Ch, zD WWE Lp (4h)。 由 于 期 望 的 线性 化 ， 得 出 Lp (A) tH EEL (A) 
的 期 望 值 。 因 此 ，| Lp (h) 一 Ls(h) | 是 随机 变量 Ls (h) 与 它 的 期 望 值 之 间 的 偏差 。 因 此 ， 我 们 
需要 证 明 Ls(h) 的 度量 集中 在 它 的 期 望 值 附近 。 

一 个 基本 的 统计 事实 一 一 大 数 定理 ,说 明了 当 m 趋 近 于 无 穷 大 时 ， 经 验 平均 值 收敛 到 它 
们 的 真实 期 望 。 这 对 于 Ls (hh) 也 是 成 立 的 ， 由 于 它 是 独立 同 分 布 的 随机 变量 m 的 经 验 平均 
值 。 可 是 ， 由 于 大 数 定理 仅仅 是 一 个 渐 近 结果 ， 因 此 它 对 于 任意 给 定 的 有 限 的 样本 大 小 的 经 
验 佑 计 误 差 与 其 真实 值 之 间 的 差距 没有 提供 任何 信息 。 

我 们 将 用 Hoeffding 提出 的 一 个 测度 集中 度 不 等 式 来 代替 ， 它 量化 了 经 验 平均 值 与 它们 
期 望 值 之 间 的 差距 。 


引 理 4. 5(Hoeffding RFA) Ah, …，0, 是 一 个 独立 同 分 布 的 随机 变量 的 序列 ， 假 设 
对 于 所 有 的 i. ELC = 六 而 且 下 va<0 和 及 0 =1。 那 么 ， 对 于 所 有 的 e>0 





P[I} 30 — pl >e|< 2exp(— 2me?/ (b—a)?) 
证 明 可 以 在 附录 也 中 找到 。 
回 到 我 们 的 问题 ， 令 0 为 随机 变量 h, a). FAREED, MEA, = zn 是 独立 
同 分 布 采样 得 到 的 ， 所 以 0 =s Oy 也 是 独立 同 分 布 的 随机 变量 。 而 且 , Ls) = 2 26 和 
Lp Dp 让 我 们 进一步 假设 4 的 范围 是 0，1， 因 此 &E[0， 苛 。 因 此 得 到 
D” (S: | Ls(h) — Lo (h) | > e} = P[I} >a -gl >e |< Qexp(—2me?) (4.2) 


把 它 和 式 (4. 1) 结 合 ， 得 到 
Dus: Jh E H, | Ls th) — I» (h) | >e) X| 2exp(— 2me? ) 
hEH 


= 2| H | exp(— 2me’) 
最 后 ， 如 果 我 们 选择 


nS log(2|H| /9) 
Se 26" 


那么 
D"({S; dh E H,|Lsth) —Lp (A) | >€}) <8 
推论 4.6 令 戏 是 一 个 有 限 假 设 类 ，Z2Z 是 一 个 定义 域 ， 并 且 令 Z: CXZ->[0，1 |] 是 一 个 损 
失 函 数 。 那 么 ， 戏 具有 一 致 收 笃 性 质 ， 而 且 样 本 复杂 度 是 
mE (e,8) eee me elada | 


而 且 ， 用 ERM 算法 ， 这 个 类 是 不 可 知 PAC 可 学 习 的 ， 样 本 复杂 度 是 
my (618) < mE (e/2,8) <| 2 aa /d) | 


评注 (“离散 化 技巧 ”) 虽然 之 前 的 推论 仅仅 应 用 于 有 限 假设 类 ， 但 有 一 个 简单 的 技巧 可 
以 让 我 们 得 到 无 限 假 设 类 的 实际 样本 复杂 度 的 一 个 很 好 的 估计 。 考 虑 一 个 假设 类 由 d 个 参数 
来 参数 化 。 比 如 ， 令 4 一 及 ，J 一 { 士 1}， 而 且 假 设 类 戏 是 所 有 形式 为 lo (x) =sign(z—6) H pK 
数 。 也 就 是 说 ， 每 个 假设 由 1 个 参数 来 参数 化 ，0E 民 ， 而 且 对 于 所 有 大 于 9 的 实例 ， 假 设 输 
出 1; 对 于 小 于 9 的 实例 ， 假 设 输 出 一 1。 这 就 是 一 个 有 无 限 大 小 的 假设 类 。 然 而 ， 如 果 打 算 
用 计算 机 实际 学 习 这 个 假设 类 ， 我们 可 能 用 浮 点 表示 法 来 维持 实数 ， 也 就 是 说 64 位 。 结 果 
在 实际 中 ,假设 类 由 可 以 用 一 个 64 位 浮 点 数 表 达 的 标量 集合 来 参数 化 。 最 多 有 2 ”个 这 样 的 
数 ， 因 此 假设 类 的 实际 大 小 最 多 是 2”。 更 一 般 地 ， 如 果 假 设 类 由 d 个 数 来 参数 化 ， 实 际 上 
我 们 学 习 到 一 个 最 大 为 2 “的 假设 类 。 应 用 推论 46， 我 们 得 到 这 样 的 类 的 样本 复杂 度 以 


18d OBCO 为 界 。 样 本 复杂 度 的 这 个 上 界 依赖 于 机 器 使 用 的 实数 的 特定 表达 方式 ， 这 是 


它 的 缺点 。 第 6 草 将 会 介绍 一 个 分 析 无 限 大 小 的 假设 类 的 样本 复杂 度 的 严格 方法 。 然 而 ， 在 
许多 实际 情况 中 ， 离 散 化 技巧 可 以 用 来 得 到 一 个 样本 复杂 度 的 粗略 估计 。 


4.3 小 结 
如 果 假 设 类 W 一 致 收敛 ， 那 么 在 大 多 数 情 况 下 Zr 中 的 假设 的 经 验 风险 将 会 如 实地 表达 它 


RAG 学 习 过 程 的 一 臻 收 八 性 27 


们 的 真实 风险 。 用 ERM 规则 ， 一 致 收敛 满足 不 可 知 PAC 可 学 习 的 条 件 。 我 们 已 经 表明 有 限 
假设 类 有 一 致 收敛 的 性 质 ， 因 此 它 也 是 不 可 知 PAC 可 学 习 的 。 


4.4 文献 评注 


满足 一 致 收敛 性 质 的 图 数 的 类 也 叫做 Glivenko-Cantelli 类 ， 这 是 以 Valery Ivanovich 
Glivenko 和 Francesco Paolo Cantelli 来 命名 的 ， 他 们 在 20 世纪 30 年 代 首 次 证 明了 一 致 收敛 的 
结果 。 可 以 参考 Dudley，Gine & Zinn(1991)。Vapnik 透彻 地 研究 了 一 致 收敛 与 可 学 习 的 关 
系 ， 参 考 Vapnik(1992), Vapnik(1995), Vapnik (1998)。 实 际 上 ， 就 像 我 们 将 要 在 第 6 HF 
到 的 一 样 ， 学 习 理 论 的 基本 定理 陈述 了 在 二 值 分 类 问题 中 ， 一 致 收敛 是 可 学 习 的 充分 必要 条 
件 。 不 过 在 更 一 般 的 学 习 问 题 中 并 非 如 此 (参考 Shalev-Shwartz, Shamir, Srebro & Sridharan 
(2010)). 


4.5 练习 


4.1 在 这 个 练习 中 ， 我 们 说 明 在 PAC 可 学 习 的 定义 中 ， 误 差 的 收敛 的 (ce，89) 条 件 实际 上 非 
常 接近 关于 平均 (或 者 期 望 ) 的 一 个 看 起 来 更 加 简单 的 条 件 。 证 明 ， 下 列 两 种 表述 是 等 
价 的 (对 于 任意 学 习 算法 A， 任 意 概率 分 布 D， 范 围 在 L0，1] 的 任意 损失 函数 ): 
1) FEAH c SO, FE mle, AF1 Y m>mle, 8) 
P [Lo (A(S)) > e] <6 


S~D 


2) 
lim E [Lp(A(S))]=0 
mcos p” 
CEs~p" 表示 大 小 为 m 的 样本 S 的 期 望 ) 。 
4.2 有 界 损 失 函 数 : 在 推论 4.6 F, FTAA RAEE, 1] WH: 如 果 损 失范 
数 的 范围 是 La，65]， 那 么 样本 复杂 度 满足 
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在 第 2 章 中 我 们 看 到 ， 除 非 很 小 心 ， 否 则 训练 数据 会 误导 学 习 器 导致 过 拟 合 。 为 了 克服 
这 一 问题 ， 我 们 将 搜索 空间 限制 在 某 个 假设 类 HK 下 。 可 以 认为 ， 这 种 假设 类 反映 了 学 习 器 关 
于 任务 的 先 验 知识 ， 认 为 假设 类 ZK 中 存在 一 个 假设 是 低 错误 率 模型 。 例 如 ， 在 木瓜 品尝 问题 
中 ， 以 对 于 其 他 水 果 的 经 验 为 基础 ， 我 们 可 能 限制 在 色 度 -硬度 平面 的 某 个 矩形 区 域 来 预测 
木瓜 的 味道 。 

这 样 的 先 验 知识 对 学 习 的 成 功 是 否 必 要 ? 是 否 存在 通用 的 学 习 央 (一 个 没有 特定 任务 先 
验 知 识 的 ， 并 可 挑战 完成 所 有 学 习 任 务 的 学 习 器 )? 下 面 我 们 详细 说 明 这 点 。 一 个 特定 的 学 
习 任 务 由 基 Xy》 上 的 一 个 未 知 分 布 D 所 定义 ， 学 习 玫 的 目标 是 寻找 一 个 预测 器 h:X 一 了 》， 使 得 
损失 Lp (4) 足够 小 。 我 们 的 问题 是 ， 如 果 A 收 到 来 自 DD 的 mx 个 独立 同 分 布 的 样本 ， 是 否 存 在 
一 个 学 习 算 法 A 和 一 个 大 小 为 m 的 训练 集 ， 使 得 对 每 一 个 分 布 D， 能 以 较 大 的 几率 输出 一 个 
具有 较 低 风险 的 预测 着 Ao 

本 章 第 一 部 分 对 此 问题 进行 正式 讨论 。“ 没 有 免费 的 午餐 ”定理 表明 ， 不 存在 这 样 的 通 
用 学 习 器 。 更 准确 地 说 ， 这 个 定理 阐述 的 是 ， 对 二 分 预测 任务 ， 每 个 学 习 器 都 存在 一 个 使 得 
学 习 失 效 的 分 布 。 如 果 学 习 需 接收 来 和 目 同 一 分 布 的 独立 同 分布 样 本 ， 其 输出 假设 可 能 
有 三 30%% 的 较 大 风险 ， 我 们 说 学 习 失 败 ; 反之 对 同一 分 布 ， 存 在 另 一 个 学 习 器 能 输出 一 个 具 
有 较 低 风险 的 假设 。 换 言 之 ， 这 个 定理 说 明 ， 没 有 学 习 需 能 在 所 有 可 学 习 的 任务 上 都 学 习 成 
功 一 一 即 每 个 学 习 器 都 有 学 习 失 败 的 任务 ， 而 这 些 任 务 对 于 其 他 学 习 需 却 能 成 功 学 习 。 

因此 ， 解 决 一 个 由 分 布 D 所 定义 的 特定 学 习 问 题 时 ， 我 们 应 该 具备 一 些 关 于 分 布 了 的 先 
验 知识 。 其 中 一 类 先 验 知识 是 限定 D 来 自 具体 的 参数 族 分 布 。 随 后 我 们 将 在 第 24 章 研 究 这 种 
假设 的 学 习 问 题 。 关 于 D 的 男 一 类 先 验 知识 是 ， 当 定义 PAC 学 习 模 型 时 ， 在 某 个 事先 指定 的 
假设 类 4 里 存在 假设 h， 使 得 Lp (A) =0. 关于 D 一 种 较 沉 松 的 先 验 知识 是 假定 minLp CA) B 
小 。 一 定 程度 上 ， 这 种 弱 假 设 是 使 用 不 可 知 PAC 模型 的 先决 条 件 ， 其 中 我 们 要 求 输出 假设 
的 风险 不 会 超过 minLp Ch). 

在 本 章 第 二 部 分 我 们 采用 一 个 假设 类 作为 将 先 验 知识 标准 化 的 方式 ， 来 研究 其 利 浆 性 。 
我 们 将 ERM 算法 在 假设 类 XK 上 的 误差 分 解 为 两 部 分 。 第 一 部 分 反映 了 先 验 知识 的 质量 ， 由 
假设 类 具有 的 最 小 风险 minLp (办 ) 所 刻画 。 这 部 分 也 称 为 逼近 误差 ， 或 是 叫 算法 从 了 选择 一 个 
假设 所 产生 的 偏差 。 第 二 部 分 是 由 过 拟 合 引起 的 误差 ， 取 决 于 假设 类 的 大 小 或 复杂 度 ， 也 称 
为 估计 误差 。 这 两 项 意味 着 ， 在 一 个 较为 复杂 的 假设 (可 以 减 小 偏差 但 会 增加 过 拟 合 的 风险 ) 
和 一 个 简单 的 假设 (可 能 会 增 大 偏差 但 可 以 降低 过 拟 合 的 风险 ) 选 择 之 间 存 在 着 一 个 权衡 。 


5.1 “没有 免费 的 午餐 ”定理 


在 这 部 分 我 们 证 明 不 存在 通用 的 学 习 器 。 通 过 证 明 没 有 学 习 器 能 在 所 有 的 任务 上 学 习 成 
功 ， 我 们 将 具体 定理 阐述 如 下 : 
定理 5. 1( 没 有 免费 的 午餐 ) ”对 实例 空间 上 0 一 1 损失 的 二 分 任务 ， 邻 A 表示 任意 的 学 
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习 算法 。 样 本 大 小 mRRDF |X| /2 的 任意 数 。 则 在 庆 X{0，1) 上 存在 一 个 分 布 D， 使 得 : 
1. 存在 一 个 函数 f: 庆 一 {0，1) 满 足 Lp(f) 二 0。 


2. 在 样本 集 S~D" E, mac ed ASD, 


这 个 定理 陈述 的 是 ， 对 于 每 个 学 习 髓 ， 都 存在 一 个 任务 使 其 失败 ， 即 便 这 个 任务 能 够 被 
男 一 个 学 习 器 成 功 学 习 。 实 际 上 , 一 个 平凡 的 学 习 咒 能 在 此 类 情况 下 学 习 成 功 ， 它 将 是 关于 
假设 类 二 {用 的 一 个 ERM 448; 或 更 广泛 而 言 ， 其 ERM 是 对 任何 包含 f 且 样 本 大 小 满 
Æ zx 二 8log(7| 对 | /6)( 见 推论 2.3) 的 有 限 假设 类 而 言 的 。 

证 明 令 C 是 大 小 为 2m 的 集合 t+ 子 集 。 直 观 的 证 据 是 ， 任 何 只 观测 到 空间 C 中 一 半 实 
例 的 学 习 算 法 ， 都 不 具有 信息 量 来 反映 C 中 剩余 实例 的 标签 。 因 此 ， 存 在 一 个 “事实 ”， 县 
在 C 中 未 观测 到 的 样本 上 ， 目 标 函 数 f 贴 的 标签 与 A(S) 预 测 的 标签 不 一 致 。 加 

注意 ， 从 C 到 (0，1}) 有 TI 一 22 个 图 数 。 这 些 函 数 表 示 为 万 ，…， 廊 。 对 每 个 这 样 的 函 
数 ， 令 D; 表示 定义 在 CX{0，1} 上 的 分 布 : 
1/|C| wR y= fi(z) 
0 否则 
也 就 是 ， 选 择 一 对 (x，y)， 标 签 y 刚好 对 应 f; 真实 标签 的 概率 是 1/|1C| ,而 yA f (xz) 的 概 
率 是 0。 显然 ， Lp (fi=0. 

我 们 将 证 明 ， 对 每 一 个 学 习 算 法 A， 其 接收 到 来 自 CX{0,， 1} 的 m 大 小 样本 集 ， 返 回 一 
个 函数 A(S): C>{0，1}， WE: 
peg E n, (A(S))] = 1/4 (5.1) 


i€L 
显然 ， 这 意味 着 对 每 一 个 学 习 算法 A'， 其 接收 到 来 自 CX {0，1} 的 mm 大 小 样本 集 ， 存 在 
一 个 函数 f: XX 一 {0，1} 和 XX{0，1} 上 的 一 个 分 布 D， (878 Lp =0 H 
E [Lp(A'(S))]>1/4 (5. 2) 
Sp. 


容易 证 明 ， 以 上 是 满足 PLLp (A'(S)) 1/8) >1/7 的 充分 条 件 ， 这 也 是 我 们 所 要 证 明 的 
( 见 练习 5.1). 

我 们 转 为 证 明 式 (5. 1) 成 立 。 对 于 来 自 C 的 m 个 样本 ， 有 二 (2m)” 种 可 能 的 序列 。 将 
这 些 序列 表示 为 So o So Ft WR Sj 一 (zl ，…，zx)， 我 们 用 S; 表示 包含 由 函数 f 


给 实例 S; 贴标签 的 序列 ， 即 S; 二 (zy ， 矿 (z))，…，(Cz， 太 (zz))。 若 分 布 是 D;,， 则 A 可 
能 接收 到 的 训练 样本 集 是 Si ，…，S， We 因此 
E [Lp (A(S))] = => > > Lo, (ACS) (5. 3) 
S~D” Rj 


根据 “最 大 值 ”大 于 PE 以 及 “平均 值 ” 大 于 “最 小 值 ”的 事实 ， 有 


T 
max DL (AS) Sty 15i (A(S})) 
i€LT] j Ee k j=l i 
le 1“ 
=A TÈ Jo AS) 
1 T 
> min FÈ Lp (ACS; )) (5.4) 
接 下 来 ， 固定 某 个 JE [LAI]。 设 S;=(2,, "ty Xm ) 并 令 0 Up Fe C 中 未 出 现在 S; 的 
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REAR, ESR, poem. Ak, PRA: C>{0，1) 和 每 个 i 有 


] <2 
Lp (h)= = 7 | lirwa 之 Son > | OSES ACN 
1 a 


>24) Teiu Ato] (5. 5) 
因此 ， 
Ly Lp (ACS) > >) aD ae 
Se ia | 
2p To [ACS Cu AS, Cu, ] 
1 1 < 
9 min = 2, Tacs pF w] (5:6) 


下 面 固定 某 个 rE[Lp]。 我 们 可 以 将 万 ，…， 太 中 所 有 的 图 数 分 为 T/2 XAH H pK 
mm, HR, WPS. fi. SAMA =v, ih 对 每 个 cEC 满 足 户 (c) 和 万 (c)。 因 为 对 
于 每 对 函数 , — EA S =S, A 


lras: Wu JA f; u, )] 十 了 acs)ew Jf] 一 =] 


y t r 


使 得 
f 
p> Acs yew Ana] = 5 
结合 上 式 和 式 (5. 6) 、 式 (5. 4) 以 及 式 (5. 3), TARG. 1) 成 立 ， 证 明 完 成 。 a 


“没有 免费 的 午餐 ”和 先 验 知识 


“没有 免费 的 午餐 ”结论 与 对 先 验 知识 的 必要 与 否 有 什么 联系 ”考虑 天 于 假设 类 XH 上 的 一 
个 ERM 预测 器 ， 这 个 假设 类 由 从 X 到 {0，1} 的 所 有 映射 函数 f 构 成。 这 个 类 代表 先 验 知识 
的 缺失 : 从 域 到 标签 集 上 的 每 个 函数 都 能 看 成 是 一 个 好 的 候选 。 根 据 “没有 免费 的 午餐 ”和 定 
理 ， 从 假设 类 ZK 中 选择 输出 假设 的 任意 算法 ， 尤 其 是 ERM HMMA MEREMEES ER 
学 习 失 败 。 因 此 ， 下 面 的 推论 给 出 了 形式 化 阐述 ， 这 个 类 不 是 PAC 可 学 习 的 : 


推论 5.2 令 交 为 一 个 无 限定 义 域 集 ， 内 为 从 区 到 {0，1} 上 的 所 有 映射 集 ， 则 风 不 是 PAC 
可 学 习 的 。 


WEAR 采用 反 证 法 ， 假设 这 个 类 是 可 学 习 的 。 选 e 二 1/8 和 6<1/7。 由 PAC 可 学 习性 的 
定义 ,一定 存在 学 习 算 法 A 和 一 个 整数 m 二 m(e，6)， 使 得 对 于 任意 关于 XX{0，1} 的 生成 数 
据 分 布 ， 知 对 于 某 个 函数 f: X 一 {0，1}， 有 Lp (有 二 0， 则 当 A 应 用 于 由 DD 产生 的 大 小 m, 
独立 同 分 布 样本 集 S 上 ，Lp (A(S))<e 以 大 于 (1 一 69) 的 概率 成 立 。 然 而 ， 应 用 “没有 免费 的 
TE” FETE, |X| 二 2m， 对 每 个 学 习 算 法 (尤其 是 对 算法 A)， 存 在 一 个 分 布 D 使 得 以 大 
于 1/7 这 6 的 概率 ，Lp (ACS))>1/8>e 成 立 ， 与 假设 矛盾 。 z 

如 何 避 免 这 样 的 失败 ? 我 们 可 以 利用 对 于 特定 学 习 任 务 的 先 验 知识 ， 结 合 “ 没 有 免费 的 
午餐 ”定理 ， 来 预见 并 脱离 这 样 的 困境 ， 从 而 避免 学 习 任务 时 会 导致 失败 的 分 布 。 这 样 的 先 
验 知 识 可 以 通过 限制 假设 类 来 表示 。 

但 是 我 们 如 何 选 择 一 个 好 的 假设 类 ? 一 方面 ,我们 希望 这 个 类 包含 完全 无 误差 (在 PAC 
痛 景 下 ) 的 假设 ,或 至 少 包含 的 假设 所 能 达到 的 最 小 误差 实际 上 很 小 (在 不 可 知 背 景 下 )。 另 
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B 





给 定 的 域 上 所 有 函数 的 类 。 





一 方面 ,我 们 已 经 看 到 ， 不 能 只 简单 地 选择 最 丰富 的 假设 类 
关于 权衡 的 讨论 见 下 一 小 iT。 


5.2 误差 分 解 
为 了 回答 本 章 的 问题 ， 我 们 将 一 个 ERMP 预测 器 的 误差 分 解 为 两 部 分 。 令 hs 为 一 个 
ERMņ 假设 。 则 写作 
Lp (hs) 三 Bo 十 en 其 中 :一 minLp Ch)» Ea = Lp (hs) — tm C5. 7) 
o BRŽ. 假设 类 里 预测 器 所 取得 的 最 小 风险 。 这 一 项 刻画 由 于 限制 到 一 个 具体 假设 
类 所 引起 的 风险 ， 即 所 产生 的 归纳 偏 置 。 台 近 误差 不 依赖 于 样本 大 小 ， 取 决 于 所 选择 
的 假设 类 。 扩 大 假设 类 可 以 减 小 逼近 误 卷 。 
在 可 实现 性 的 假设 下 ， 逼 近 误 差 是 零 。 然 而 ， 在 不 可 知情 况 下 ， 逼 近 误差 可 能 很 大 ” 。 
o 估计 误差 : 通 近 误差 与 ERM 预测 器 误差 之 间 的 差异 。 估 计 误 差 的 产生 是 因为 : 经 验 
风险 ( 即 训练 误 差 ) 只 是 真实 风险 的 一 个 估计 ， 所 以 最 小 化 经 验 风险 预测 需 只 是 最 小 化 
真实 风险 预测 器 的 一 个 估计 。 
预测 器 的 估计 好 坏 取 决 于 样本 集 大 小 和 假设 类 的 大 小 或 复杂 度 。 如 前 所 示 ， 对 一 
个 有 效 假 设 类 ，e. 随 XK( 以 对 数 方式 ) 递 增 ,， 随 m 递减 。 我 们 可 以 将 姑 的 大 小 作为 其 复 
杂 度 的 一 种 衡量 。 在 后 面 的 章节 我 们 将 定义 一 些 其 他 的 假设 类 复杂 度 衡量 指标 。 
由 于 目标 是 将 总 风险 最 小 化 ， 因 此 我 们 面临 着 一 个 权衡 ， 称 为 偏差 -复杂 度 权 衡 。 一 方 
面 ， 选 择 一 个 丰富 的 假设 类 作为 戏 会 导致 过 拟 合 ， 使 得 表 近 误差 减 小 的 同时 估计 误差 增 大 。 
另 一 方面 ， 选 择 一 个 较 小 的 假设 类 作为 允 ， 会 导致 估计 误 关 减 小 的 同时 通 近 误差 增 大 ， 换 言 
会 欠 拟 合 。 当 然 ， 关 于 HN 的 一 个 好 的 选择 是 ， 假 设 类 只 包含 一 个 分 类 器 一 一 贝 叶 斯 最 优 分 
类 絮 。 但 是 贝 叶 斯 最 优 分 类 器 依赖 于 潜在 分 布 D， 而 D 却 是 未 知 的 (事实 上 ， 事 先知 道 分 布 就 
无 需 进 行 学 习 )。 
学 习 理 论 人 研究 的 是 我 们 如 何 使 得 姑 直 富 的 同时 依然 保持 合理 的 估计 误差 。 在 很 多 情况 中 ， 
经 验 研 究 着 重 于 对 某 个 域 设计 一 个 好 的 假设 类 。 这 里 ,， “好 ”的 假设 类 意味 着 其 允 近 误差 不 
会 过 大 。 意 思 就 是 ， 虽 然 我 们 不 是 专家 且 不 知道 如 何 构 造 最 优 分 类 器 ， 但 是 对 面临 的 问题 有 
一 些 先 验 知识 ， 确 保 能 够 设计 一 个 假设 类 。 这 个 假设 类 的 通 近 误差 和 估计 误差 都 不 会 太 大 。 
回 到 木瓜 的 例子 ， 我 们 不 知道 如 何 根据 木瓜 的 颜色 和 硬度 预测 其 成 熟 的 程度 ， 但 是 我 们 知道 
颜色 -硬度 的 二 维和 矩形 区 域 可 能 是 一 个 好 的 预测 噩 。 


5.3 小 结 


“没有 免费 的 午餐 ”定理 说 明 不 存在 通用 的 学 习 器 。 每 个 学 习 器 都 有 其 特定 的 任务 ， 为 
了 学 习 成 功 要 采用 一 些 关 于 任务 的 先 验 知 识 。 目 前 为 止 ， 通 过 限定 输出 假设 为 所 选 假设 类 中 
的 一 员 ， 我 们 对 先 验 知识 进行 建 模 。 当 选择 这 个 假设 类 时 ， 我 们 面临 着 一 个 权衡 ， 是 选择 一 
MEK BERR AR IBIAS, PRUE BY) AY EERE; 还 是 选择 一 个 有 更 多 限制 的 假设 类 ， 
保证 较 小 的 估计 误差 ?关于 估计 误差 的 更 多 性 质 在 下 一 章 讨 论 。 第 7 章 将 讨论 其 他 表达 先 验 
知识 的 方法 。 


O ”实际 中 ， 通 近 误差 总 是 包含 贝 叶 斯 最 优 预 测 器 ( 见 第 3 章 ) 的 误差 ， 由 于 模型 中 存在 真实 世界 的 不 确定 性 ， 最 小 
误差 预测 融 也 会 产生 不 可 避免 的 误差 。 有 时 在 一 些 文献 中 ， 道 近 误差 项 指 的 不 是 minlp (h), 而 是 指 超过 贝 叶 


斯 最 优 预 测 器 的 误差 ， 即 minLp (/) 一 ej。 


hEH 
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5.4 文献 评注 


Wolpert & Macready (1997) 从 优化 角度 证 明了 几 个 “没有 免费 的 午餐 ”定理 ,但 是 这 与 
我 们 证 明 的 理论 有 一 些 不 同 。 本 章 所 证 明 的 定理 与 下 一 章 的 VC 理论 中 的 下 确 界 有 着 密切 
关系 。 


5.5 练习 


5.1 WEH: 式 (5.2) 是 好 1IP(CACS)) 三 1/8] 三 177 的 充分 条 件 。 
提示 : 令 0 是 [0，1j] 区 间 上 的 随机 变量 ,其 期 望 满 足 B[0] 宇 1/4。 根 据 引 理 B1, 证 明 : 
PL0] 宇 1/8 宇 1/7。 

5.2 假如 要 求 你 设计 一 个 学 习 算法 来 预测 病人 是 否 会 有 患 心 脏 病 的 风险 。 算 法 所 得 的 病人 相 
关 特 征 信息 包括 血压 (BP) 、 体 重 指数 (BMD 、 年 龄 (A) 、 体 育 锻炼 的 频 度 (P) 和 收入 (TD 。 
你 可 以 在 两 种 算法 中 选择 一 种 。 一 个 算法 选取 由 特征 BP 和 BMI 构成 的 二 维 空间 和 拢 
形 ， 另 一 个 算法 选取 由 以 上 所 有 五 个 维度 特征 所 构成 的 超 立 方 体 。 

1) 解释 每 个 方案 的 优点 和 缺点 ; 
2) 解释 可 提供 标签 的 训练 样本 数 对 选择 方案 的 影响 。 
5.3 证明 : 对 正 整 数 k>S2, A|X|Skm, WRK “ARR R” EHP FR 


BRIT =AL, REZ, A A 是 针对 二 分 任务 的 学 习 算法 。 令 加 是 小 于 |X|/k 
的 任意 数 ， 表 示 训 练 样本 集 大 小 。 则 存在 tX {0，1) 上 的 一 个 分 布 ， 使 得 


o 存在 一 个 函数 f:X 一 {0,，1},， 有 Lp(f)==0 


m E oo 5 
© Es-p” [Lp (A(S)) ] > aT 
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在 之 前 的 章节 中 ， 我 们 将 ERMy 规 则 产生 的 误差 分 解 为 允 近 误差 和 估计 误差 。 其 中 ， 
逼近 误差 依赖 于 我 们 的 先 验 知识 (反映 在 对 假设 类 的 选择 ) 与 潜在 的 未 知 分 布 是 否 吻 合 。 
而 PAC 可 学 习性 的 定义 要 求 ， 对 于 所 有 分 布 估计 误差 均 有 一 个 一 致 的 界 。 

我 们 现在 的 目标 是 找到 那些 PAC 可 学 习 的 假设 类 戏 ， 并 且 精 确 地 刻画 学 习 给 定 假设 类 
的 样本 复杂 度 。 目 前 ， 我 们 已 经 知道 有 限 的 类 是 可 学 习 的 ， 而 由 所 有 函数 组 成 的 类 (在 一 
个 无 限 规模 的 域 ) 不 是 可 学 习 的 。 那 么 ， 到 底 是 什么 使 一 个 类 可 学 习 而 使 另 一 个 类 不 可 学 
习 ? 无 限 规模 的 类 是 否 可 学 习 ? 如 果 可 以 ， 那 是 什么 决定 这 种 类 的 样本 复杂 度 ? 

我 们 通过 说 明 有 些 无 限 类 确实 可 学 习 来 开始 这 一 章 ， 基 于 此 ， 说 明了 假设 类 的 有 限 性 
不 是 可 学 习性 的 必要 条 件 。 之 后 ， 我 们 引入 一 种 对 可 学 习 的 假设 类 族 非 常 新 鲜 的 描述 来 建 
立 那 些 采 用 0 一 1 损失 的 二 值 分 类 问题 。 这 个 描述 最 早 由 Vladimir Vapnik 和 Alexey Cher- 
vonenkis F 1970 年 发 现 ， 并 借助 于 VC 维 的 概念 。 我 们 将 正式 地 定义 VC 维 ， 给 出 一 些 
VC 维 的 例子 ， 之 后 叙述 统计 机 器 学 习 理 论 的 基本 定理 ,该 定理 整合 了 可 学 习性 、VC 维 、 
ERM 规则 以 及 一 致 收敛 性 的 概念 。 


6. 1 无 限 的 类 也 可 学 习 

在 第 4 章 中 我 们 看 到 有 限 的 类 是 可 学 习 的 ， 实 际 上 ， 这 种 情况 下 ， 假 设 类 的 样本 复杂 
度 上 界 由 假设 类 大 小 的 对 数 决 定 。 为 了 说 明 假 设 类 的 大 小 不 是 一 个 可 用 于 描述 样本 复杂 度 
的 特征 ， 我 们 首先 举 一 个 简单 的 例子 ,说 明 某 些 无 限 大 小 的 假设 类 也 是 可 学 习 的 。 

SHELA - BARB MNES, Bl, H=(h:aER}, HH, ha: R~{0, 
1} 是 一 个 函数 ， 使 得 A (=D. MMR <a, lca Nl GUN O. BR, HEH 
大 小 的 。 虽 然 如 此 ， 下 面 的 引 理 表明 XH 在 PAC 模型 下 采用 ERM 算法 是 可 学 习 的 。 a 

引 理 6. 1 AHA Pi Z Lh RAAK, MA, HERA ERM 规则 时 是 PAC 可 
学 习 的 ， 其 样本 复杂 度 myle 8) T log(2/6)e1。 

WEAR 令 a* 为 阀 值 ， 则 相应 的 假设 h* (Cr) =D ea | BT DAE Lp (h* )=0, SD, 为 域 
区 上 的 边缘 分 布 ， 令 ao 二 a* <a, 使 得 : 

P [Lz E laya] 三 La [az € (a* ,a,)]=e 


E 块 g th 





a a a, 


(如 果 D;( 一 oe，a* )<e 则 令 w= 二 一 oo， 对 于 a 也 采用 类 似 处 理 。) 给 定 一 个 训练 集 $， 
4> by =max{x: (z, 1)€S}, hb 二 min{x: (zx，0)ES}( 若 在 S 中 无 正 样本 ， 今 入 王 一 ce， 后 
样 ， 如 果 在 S 中 无 负 样 本 , +b =), + bs 为 与 ERM 假设 hs MEM. BD 
bsE (bys bi), AK, Lp hse 成立 的 充分 条 件 是 名 三 oo 5b <q 同时 成 立 。 换 言 之 
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P [Lp (As )>el<_ P [bo <a V bi >a] 


采用 联合 界 ， EREA 
P [Lp (hs > el. P [ho dt P [b => a | (6. 1) 


S~D" 


TTEN HT a” ) 中 时 ， 会 出 现 bo 二 ao 的 情况 ， 将 这 种 情 
a [bo < ao] = | a LV (£, y) E Sox É lasa" ) |= (1—e)” < em 


由 于 我 们 假定 了 Se 则 上 和 式 至 多 为 6/2。 同 样 ， 可 以 容易 得 到 
Psp” [bi >a; ] 寺 6/2。 联 立 式 (6. 1)， 引 理 得 证 。 = 


6.2 VC 维 概述 


我 们 可 以 看 到 ， 虽 然 假 设 类 戏 的 有 限 性 是 可 学 习性 的 充分 条 件 ， 但 它 并 不 是 一 个 必要 条 
件 。 之 后 会 看 到 ， 一 个 叫做 VC 维 的 性 质 能 正确 描述 假设 类 的 可 学 习性 。 为 了 引出 VC 维 的 
定义 ， 我 们 首先 回顾 “没有 免费 的 午餐 ”和 定理 (定理 5.1) 及 其 证 明 。 当 时 ， 我 们 已 经 说 明 如 
果 不 对 假设 类 加 以 限制 ， 任 何 学 习 算 法 总 会 遇 到 表现 很 差 的 情况 ， 与 此 同时 ， 总 是 有 学 习 算 
法 在 此 情况 下 表现 很 好 。 为 了 达到 这 样 的 情况 ， 可 以 使 用 一 个 有 限 集 CC 并 且 考 虑 在 C 上 
元 素 的 分 布 族 ， 其 中 每 个 分 布 由 从 C 到 {0，1}“ 真 实 的 ”目标 函数 产生 。 为 了 使 任何 学 习 算 
法 失败 ， 可 以 从 由 CC 到 40，1)} 所 有 可 能 的 图 数 构成 的 集合 中 选择 一 个 目标 函数 。 

考虑 到 一 个 假设 类 ZX 的 PAC 可 学 习性 ， 需 构建 一 些 分 布 使 得 某 些 假设 h C HK FS AL 
险 。 由 于 考虑 的 是 限制 在 C 上 元 素 的 分 布 ， 我们 需要 学 习 究 竞 假设 类 KX 在 C 上 表现 如 何 ， 
于 是 引出 了 下 面 的 定义 。 

定义 6.2( 限 制 天 在 CE) 令 1 是 从 二 到 {0，1)} 的 一 个 函数 类 ， 并 且 令 CSa, 
Cm CX. RAHE C 上 就 是 由 来 自 扩 从 CC 到 (0，1)} 的 函数 构成 的 集合 。 即 

= {(h(c,).°**;h€c,)):h E H} 

其 中 ， 我 们 将 每 个 从 C 到 {0，1} 的 函数 表示 为 形 如 {0，1)}1c| 的 向 量 。 

WRR RHE C 上 是 从 C 到 (40，1) 的 所 有 图 数 的 集合 ， 那 么 我 们 称 戏 打 散 了 集合 C。 
正式 地 : 

定义 6.3( 打 散 ) 如 果 限 制 玉 在 C 上 是 从 C 到 {0，1} 的 所 有 函数 的 集合 ， 则 假设 类 了 
打 散 了 有 限 集 CCH, wi |He| =2!¢! 。 


令 和 是 及 上 的 冰 值 函数 类 。 取 一 个 集合 CH=(c}. He, WRR a=c +1 则 
有 ha(c1) 二 1]， 如 果 取 a 二 ci 一 1， 则 有 有 h(c1) 二 0。 因 此 ，Hc BMC 到 {0，1}) 的 所 有 函数 
的 集合 ， 故 而 XW 打 散 了 C。 此 时 如 果 取 CS {cins ceo), AP ae, WARE REH C 
到 (0，1} 所 有 可 能 的 映射 ， 因 此 任何 阅 值 函数 如 果 给 c 的 标签 是 0， 则 给 cz 的 标签 一 定 也 
f= 0. AU. He 没有 包括 所 有 从 C 到 {0，1} 的 函数 ， 故 而 此 时 C 没有 被 1 打 散 。 < 


回 到 之 前 所 述 “没有 免费 的 午餐 ”定理 (定理 5.1) 中 情况 的 构建 上 ， 我 们 可 以 看 到 当 
一 些 集合 C 被 KK 打 散 时 ， 构 建 的 分 布 便 不 局 限于 允 ， 因 为 可 以 根据 从 C 到 {0，1}) 的 任意 目 
ty PRU ETE C 上 的 分 布 ， 并 且 同 时 保证 可 实现 假设 依然 成 立 。 这 直接 得 到 了 ， 


推论 6.4 令 允 是 从 到 {0，1}) 的 函数 构成 的 假设 类 。 令 m 是 训练 集 的 大 小 。 假 定 存 
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在 大 小 为 2m HHS CCHHRHAK., MA, TAFIA, AX, IELE 
He —) FAD Fo FHM) Bh CHEE Lp (Ah) 王 0， 但 是 对 于 所 选 样本 集 S~D" 至 少 以 1/7 的 
概率 有 Lp (A(S)) 1/8. 

推论 6. 4 说 明了 如 果 假 设 类 WK 打 散 了 大 小 为 2m 的 集合 C， 那 么 我 们 将 无 法 通过 mx 个 
样本 来 学 习 戏 。 直 观 地 讲 ， 如 果 一 个 集合 C 被 叉 打 散 ， 而 我 们 只 能 得 到 C 中 一 半 样 本 构成 
的 集合 ， 那 么 这 些 样本 的 标签 对 于 我 们 预测 C 中 剩余 样本 标签 的 价值 来 说 没有 产生 帮助 ， 
因为 剩余 样本 的 标签 的 每 一 种 可 能 的 组 合 都 可 以 在 假设 类 戏 中 找到 某 些 假设 与 之 对 应 。 从 
哲学 上 讲 ， 如 果 有 人 可 以 解释 每 个 现象 ， 他 的 解释 本 身 就 是 毫 无 意义 的 。 

基于 上 述 事实 ， 现 在 我 们 可 以 引出 VC 维 的 定义 : 

定义 6. 5(VC 维 ) ”假设 类 好 的 VC 维 ， 记 为 VCdim( 和 Li) ， 是 对 可 以 打 散 的 最 大 集合 
CC 的 大 小 。 如 果 姑 可 以 打 散 任意 大 的 集合 ， 我 们 说 和 的 VC 维 是 无 穷 的 。 

因此 我 们 得 到 推论 6. 4 的 一 个 直接 结果 如 下 : 

定理 6.6 SHEAR VC Rž, MAHR PAC 可 学 习 的 。 

证 明 ”由 于 共有 无 穷 VC 维 ， 故 而 对 于 任意 m 大 小 的 训练 集 ， 总 存在 一 个 大 小 为 2m 
日 被 打 散 的 集合 ， 结 合 推论 6. 4 定理 得 证 。 图 

在 本 章 后 面 ， 我 们 将 会 看 到 上 述 定 理 的 逆 命 题 也 成 立 ， 即 有 限 的 VC 维 可 以 保证 可 学 习 
性 。 因 此 ，VC 维 可 以 描述 PAC 可 学 习性 。 在 深入 研究 理论 之 前 ， 我 们 先 看 几 个 例子 。 


6.3 实例 
这 一 小 节 将 对 几 个 假设 类 进行 VC 维 的 计算 。 为 了 证 明 VCdim(H) =d, FUE: 
1. 存在 大 小 为 d 的 集合 C 可 以 被 1 打 散 。 
2. 每 个 大 小 为 d 十 1 集合 C BARE RHFT AK. 


6.3.1 Mie ey 


Giz R EMR. Eø 6.2 中， 我 们 说 明了 任意 形 如 C={ci ) 的 集合 ， 都 可 
以 被 4 打 散 ， 因 此 VCdim(3) 达 1。 我 们 同时 说 明了 任意 形 如 C={c ，c (orc. MES, 
1 无 法 打 散 。 因 此 ， 我 们 可 以 确定 VCdim(H) =1, 


6.3.2 区 间 


SHE 了 有 上 的 区 间 类 ， BUH= thaw: a, ER, a&b}, 其 中 hao: R>{0, 1} =—T FR 
数 ， 使 得 hoy (2) Team). REA C=(1, 2}, MHA LATE C( 请 确保 你 知道 原因 )， 因 
此 VCdim(XW) 宇 2。 现 在 ， 取 一 个 任意 的 集合 C= 二 {cl o, o) 并 不 失 一 般 性 地 假定 < 
acs MA, 标签 (1，0，1) 无 法 由 一 个 区 间 获 得 ， 因 此 7 没有 打 散 这 样 的 集合 C。 所 以 
我 们 可 以 得 到 VCdim(H) = 2, 


6.3.3 平行 于 轴 的 矩形 


令 ?是 平行 于 轴 的 矩形 类 ， 即 
A= (Pi stay slg 201 Sa HE b&b <b} 





其 中 
1 Æ ai < Tı S a25b, [<t Sb: 
0 其 他 

接 下 来 将 证 明 VCdim(3) 一 4。 为 了 证 明 这 一 点 ， 我 们 需要 找到 一 个 由 4 个 点 组 成 的 
集合 而 且 可 以 被 i 打 散 ， 并 且说 明 不 存在 由 5 个 点 组 成 的 集合 可 以 由 1i 打 散 。 找 到 一 个 由 4 
个 点 组 成 的 集合 可 以 被 打 散 是 容易 的 ( 见 图 6. 1) 。 现 在 ， 考 虑 任意 5 点 构成 的 集合 CCR 。 
在 C 中 ， 取 一 个 最 左边 的 点 (其 第 一 个 坐标 在 C 中 最 小 )， 一 个 最 右边 的 点 (其 第 一 个 坐标 
最 大 ) ， 一 个 最 下 面 的 点 (第 二 个 坐标 最 小 ) ， 以 及 一 个 最 上 面 的 点 (第 二 个 坐标 最 大 )。 不 
失 一 般 性 ， 记 为 C= 二 {cl +, chs HO c 为 未 被 取 到 的 点 。 现 在 ， 定 义 一 种 标签 结果 为 
(1，1，1，1，0)， 则 不 可 能 由 任何 平行 于 轴 的 矩形 得 到 这 种 标签 结果 。 事 实 上， 这样 的 
矩形 必须 包含 c ，…，ci， 但 是 在 这 种 情况 下 ， 其 必 同 时 包含 cs ， 因 为 这 个 点 的 坐标 在 所 
选 点 的 坐标 区 间 内 。 因 此 ，C 没有 被 1 打 散 ， 故 而 VCdim(H)=4, 


C) 


(6. 2) 


hia, .a5sb, shy) (Tı »Xo) = 


Gi % 

C, es €; 

& ® 和 O $ 
C3 
E = 


图 6.1 AR: 4“ ABORT FRET a. AE: 任何 平行 于 轴 的 矩形 都 不 能 在 将 其 他 点 
标记 为 1 的 情况 下 将 cs 标记 为 0 


6.3.4 有 限 类 

令 H 是 一 个 有 限 类 。 那 么 ,很 显然 对 于 任意 集合 C， 有 |Xc | 三 |XK|， 因 此 如 果 |K| 过 
21c| ，C 将 不 会 被 打 散 。 这 意味 着 VCdim(X) 志 logs (H|). ARE, AIR VC 维 的 
PAC 可 学 习性 比 有 限 类 的 PAC 可 学 习性 更 为 一 般 ， 我 们 将 会 在 下 一 节 详 述 。 注 意 ， 有 限 
类 的 VC A BY RE log, (HIME. Ain, SVY={1, =, k}, k HRSG, SBMA 
PRA ZE (OP 6.2 ESL), ABA. |H| = 有 但 是 VCdim(X)= 二 1]。 由 于 可 以 变 得 任意 大 ， 故 
而 logz (| 从 | ) 和 VCdim(7) 的 差距 也 可 以 变 得 任意 大 。 


6.3.5 VC 维 与 参数 个 数 


在 之 前 的 例子 中 ， 我 们 发 现 VC 维 碰 巧 与 定义 假设 类 的 参数 的 个 数 相等 。 虽 然 往 往 是 
这 个 情况 ,但 要 注意 这 不 一 定 是 永远 正确 的 。 下 面 考虑 一 种 情况 ， 设 域 为 + 二 民 ， 假 设 类 
AH=(he:0€R}, HEP hy: X>{0, 1} ho(x) 二 | 0. 5sin(0x)]| 定 义 。 易 证 得 VCdim(X) = 
co， 即 ， 对 于 每 个 4， 都 能 找到 d 个 点 被 假设 类 姑 打 散 ( 见 练习 6. 8) 。 


6.4 PAC 学 习 的 基本 定理 


我 们 已 经 说 明了 VC 维 无 限 的 类 不 是 可 学 习 的 ， 其 逆 命 题 也 是 正确 的 ， 因 此 可 以 得 到 
下 述 统计 学 习 理 论 的 基本 定理 : 

定理 6. 7( 统 计 学 习 的 基本 定理 ) 令 允 是 一 个 由 从 忆 到 {0，1) 的 映射 函数 构成 的 假设 
类 ， 且 令 损 失 函 数 为 0 一 1 损失 。 那 么 ， 下 述 陈 述 等 价 ， 

1. 姑 有 一 致 收 人 证 性， 
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. 任何 ERM 规则 都 是 对 于 允 成 功 的 不 可 知 PAC FAIS. 
， 列 是 不 可 知 PAC 可 学 习 的 。 
. H PAC 可 学 习 的 。 
, 任何 ERM 规则 都 是 对 于 允 成 功 的 PAC 学 习 器 。 
. Hey VC 维 有 限 。 
该 定理 的 证 明 将 在 下 一 小 节 给 
VC 维 不 仅 可 用 于 描述 PAC 可 学 习性 ， 还 可 以 决定 样本 复杂 度 。 
定理 6. 8( 统 计 学 习 的 基本 定理 一 一 定量 形式 ) FHE—-A HALA. 1S HRA BH 
构成 的 假设 类 ， 且 令 损 失 函 数 为 0 一 1 损失 。 假 定 VCdim(1) 王 Gd<ce， 那 么 ， 存 在 绝对 常 
数 Ci. Co 使 得 ; 
lL 和 有 一 致 收敛 性 ， 若 其 样本 复杂 度 满足 、 


D OF Ae W DO 


2. HE AAS PAC 可 学 习 的 ， 若 其 样本 复杂 度 满足 : 
C ft bogie mle So d glo 


3. HX PAC 可 学 习 的 ， 若 其 样本 复杂 度 满足 : 
C d+ [ogla She BC Hog fe) 二 loge? 


上 述 定理 的 证 明 将 会 在 第 28 草 给 出 。 

评注 ”我们 所 述 的 基本 定理 是 针对 二 分 类 问题 的 。 对 于 其 他 学 习 问 题 ， 如 采用 绝对 值 
损失 或 者 平方 损失 的 回归 问题 也 能 得 到 类 似 结 有 果 。 然 而 ， 该 定理 并 不 是 对 于 所 有 的 学 习 问 
题 都 成立。 特别 地 ， 有 些 情 况 下 即使 满足 一 致 收敛 性 不 成 立 ， 也 可 能 有 可 学 习性 成 立 ( 我 
们 将 在 第 13 草 和 练习 6. 2 中 举例 说 明 )。 更 进一步 地 ， 在 某 些 情况 下 ，ERM 规则 不 成 立 
但 是 可 学 习性 可 通过 其 他 学 习 规 则 达到 。 


6.5 定理 6.7 的 证 明 


在 第 4 章 中 我 们 已 经 看 到 了 2. RERE 23, 3-4UK2>5 是 显然 的 。 由 “ 没 
有 人 免费 午餐 ”定理 可 知 ，4->6 和 5—6 也 是 易 得 的 。 定 理 证 明 的 难点 在 于 6->1。 证 明 过 程 
主要 基于 下 述 两 个 论断 : 
o 如果 VCdim(H) 二 4d， 即 使 是 无 限 的 ， 当 将 其 限制 在 一 个 有 限 集合 CC, H 
“AAC” ABI He | 只 有 OC(ICI”)。 即 ，HKe 随 着 |C | 的 增长 呈现 按 多 项 式 方式 增长 
而 不 是 按 指 数 方式 增长 。 该 论断 与 Sauer 引 理 有 关 ， 亦 被 Shelah 和 Perles 提出 和 
独立 证 明 。 之 后 在 6. 5. 1 节 会 正式 地 给 出 该 论断 。 
e 6.4 市 说 明了 有 限 的 假设 类 有 着 一 致 收敛 性 。 之 后 在 6. 5. 2 节 中 会 将 这 一 论断 推广 
并 说 明 当 假设 类 有 一 个 “小 的 有 效 规模 ”时 其 一 致 收敛 性 成 立 。“ 小 的 有 效 规模 ” 
指 的 是 |Xc | 随 着 |C | 按 多 项 式 方式 增长 。 


6.5.1 Sauer 引 理 及 生长 函数 


我 们 通过 将 假设 类 XH 限制 在 由 有 限 实例 组 成 的 集合 上 定义 了 打 散 的 概念 。 所 谓 的 生长 
晒 数 就 是 度量 对 在 由 m 个 样本 构成 的 集合 上 的 最 大 “有 有效” 规模 。 正 式 地 : 


定义 6. 9( 生 长 函数 ) FHERRAE. HMEK BR, 14 tyn): N>N, ZLA: 


Tm) = max |Hel 
EC 区 ,| C| =m 


EP, ty (Im) 就 是 从 大 小 为 m 的 集合 C 到 {0，1} 不 同 函 数 的 个 数 ， 其 可 由 限制 和 4 在 C 上 获得 。 


显然 ， 如 果 VCdim(1) 一 &d， 那 么 对 于 任意 m<d, A ,(m)=2". ERAF., H 
诱导 了 从 C 到 {0，1)} 所 有 的 函数 。 下 述 由 Sauer, Shelah, Perles 独立 提出 的 美妙 的 引 理 ， 
表明 了 当 m 变 得 比 VC 维 大 时 ， 生 长 函数 随 着 m 按 多 项 式 方式 增长 而 不 是 按 指 数 方 式 
HK. 

引 理 6. 10(Sauer-Shelah-Perles) 令 X 是 一 个 假设 类 ， 且 VCdim(H)<d<oo, ARA x 


于 所 有 的 m, ym) < >) (”") 。 特 别 地 ， 如 果 m>dt+1, ABA x, (m)<Cem/d)*, 
Sauer 5| 289 WE BA * 
为 了 证 明 该 引 理 ， 需 要 证 明 下 述 更 严格 的 论断 :对 于 任意 C=, e Ca) A 
VH.|He |< |{BCC:H 4 # B} | (6.3) 
式 (6. 3) 对 于 证 明 引 理 是 充分 的 ， 因 为 如 果 VCdim(H) <d 那么 将 不 存在 规模 大 于 4a 
且 被 1 打 散 的 集合 ， 因 此 


d 
| (BE CHER BISK CD 


当 m>d+1 时 上 式 右 项 至 多 为 (em/d)4( 见 附录 A 中 引 理 A. 5), 
因此 现 只 须 证 明 式 (6. 3) 成 立 ， 我 们 采用 归纳 法 。 对 于 m=1 的 情况 ， 无论 ZX 是 何 种 形 
式 ， 式 (6. 3) 两 边 或 者 都 等 于 1 或 者 都 等 于 2( 我 们 认为 空 集 总 是 可 被 和 打 散 的 )。 下 面 假定 
对 于 集合 规模 有 二 m 式 (6.3) 成 立 ， 现 证 明 集 合 规模 为 m WL. MEHUR C= 
{a ，"…，Cm}。 男 外 ， 记 C= 二 {cs，…，cmn)， 并 定义 如 下 两 个 集合 ，; 
Yo = § (Y25***3 Ym) 0s ys Ym) E He V (ys yn) E He} 
Yi = {Cyne Ym) 05 yr Ym) E He A Cy yzs Ym) E He} 
ARA Sy UE He =Y | HIY l. Bob. BF Yo =He, ZEHE C' 的 归纳 假设 (应 用 
FHAIC), FTA 
F= (He |< BEC H FT B} |= {BC Cre ¢ B AHF B} | 
PE PH, ÆXH' CHH: 
H'={hEH: Fh’ CHs.t. (l—h'(e,) h' (ep) sesh’ Ce,)) 
= (h(c,) sh(ce)5*** hc, )} 
Bl, HER TIREE C' 上 适用 但 在 c 上 不 适用 的 假设 。 在 这 样 的 定义 下 ， 显 然 地 ， 如 果 
对 打 散 了 集合 BSC' ， 那 么 它 将 同时 打 散 集合 BU{c )， 反 之 亦 成 立 。 KY, =He 与 上 述 
事实 联 立 ， 并 考虑 KX' 在 C 上 的 归纳 假设 ， 可 得 
(ys [= (Hele {BCC :H' iri B}| = {BCC n" 打 散 B U {ci }} | 
= | {B&E C:a € BAH!’ HA BY |< | {BEC €B A HTH B} | 
综 上 所 述 ， 有 
He | = |Y |+ IY | 
<= | (BE Ce, EBAH 打 散 吾 )| 十 |{(BECC:ci E BAH 4 B} | 
= |{BCC:H #7 B}| ca 
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6.5.2 ”有 小 的 有 效 规模 的 类 的 一 致 收敛 性 
这 一 节 中 ， 我 们 要 证 明 如 果 扩 有 小 的 有 效 规模 ， 那 么 共有 一 致 收敛 性 ， 正 式 的 表述 如 下 : 


定理 6. 11 令 和 是 一 个 类 , 令 韦 ,为 其 生长 函数 。 那 么 ， 对 于 每 个 DD 以 及 每 个 SE CO, 1), 
对 于 任意 S~D”"， 都 以 至 少 1 一 6 的 概率 有 下 式 成 立 : 
4 + Vlog(r (2m)) 

pth) — Ls hW) |< OA 

| Lo Ch s(h) | s Ja 
在 证 明 该 定理 之 前 ， 我 们 首先 完成 定理 6. 7 的 证 明 。 
定理 6.7 的 证 明 
欲 证 有 限 VC 维 的 假设 类 有 春 一 致 收 伍 性 ， 须 证 : 


ae 16d 16d l6dlog(2e/d) 
me CED <4 Te EENT) + Gey 


由 Sauer EPEAT FG. RF md, Ary, (2m)<(em/d)*, HZAS5EM 6.11 联 立 可 
得 以 至 少 1 一 6 的 概率 下 式 成 立 
Leth} — loth) esx v dlog(2em/d) 
ciliated, r= 
为 了 简化 表达 ， BRE v dlog(2em/d) =4, 因此 有 


(ESk — La | = 2dlog(2em/d) 


m 


为 了 保证 上 式 至 多 为 s， 我 们 需要 得 到 


is 2dlog(m) 4 2dlog(2e/d) 
=~ r (de)? 


标准 的 代数 操作 ( 见 附录 A 中 引 理 A. 2) 表 明 上 式 成 立 的 一 个 充分 条 件 是 


2d 2d 4dlog(2e/d) 
et Cae slo Te) (de)? 


评注 ”我们 在 定理 6.7 的 证 明 中 给 出 的 my 的 上 界 可 能 不 是 最 严格 的 。 在 第 28 章 中 
将 会 给 出 一 个 满足 定理 6. 8 的 界 更 严格 的 分 析 。 
定理 6. 11 的 证 明 * 





我 们 由 证 明 下 式 开 始 
4+ ,/log(t, (2m)) 
E | Lath) =L; l | < (6. 4) 
E [sup 本 | V2m 


由 于 随机 变量 supsex | Lp (h)—Ls(h) | 是 非 负 的 ， 因 此 该 定理 可 直接 由 马尔 可 夫 不 等 
式 推 出 ( 见 B. 1 节 )。 
为 了 给 出 式 (6.4) 左 半 部 分 的 界 ， 我 们 首先 注意 到 对 于 每 个 hEXxK， 我们 可 以 重 写 
Lp (h) =Es~p" [Ls (h)], EP S'=zi, =, zh 为 新 增 的 独立 同 分 布 样本 。 因 此 
E | sup| Lp (h) — Ls h) | | = Ë | sup E Ls (h) —Ls(h)| | 
S~D”" — hEH S~D"-hEH S~D” 
利用 三 角 不 等 式 的 一 般 形 式 可 得 
| E [Ly (A) —Ls(h)]] < E |Ly(h)—Lsth)| 
S’—p” S'~f" 


考虑 到 期 望 的 上 界 小 于 上 界 的 期 望 ， 故 而 
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wp E |Esrpy= Ls(h) |< E | supl Ls h) —Ls(h)| | 
kEH S'~D”" 72 hEH 


之 前 的 两 个 不 等 式 也 可 由 Jensen 不 等 式 得 到 ， 联 立 上 述 各 式 ， 有 


E [supl to) — Ls wI |< E J sup| Ly 一 LsCD1 | 
Sape S, S'~ hEH 


= E [sup 21 > ec 2) — —éhyx))| | (6.5) 


S,S'~D" -hE = 
等 式 右边 的 期 望 与 两 个 独立 同 分 布 的 样本 S= Zi» etts Zm Ail S’ 一 Zi SES | Zn 有 关 。 
由 于 所 有 2m 个 向 量 都 是 独立 同 分 布 的 ， 因 此 我 们 将 随机 变量 z; 换 名 为 z; 不 会 产生 任何 
变化 ， 这 样 之 后 ， 式 (6. 5) 中 的 项 (CC，xzi ) 一 LCh，z;) ) 将 变 为 项 一 (Ch，z; ) 一 LCh，z;))。 
因此 ， 对 于 每 个 o€{ 土 1}”"， 式 (6. 5) 等 价 于 : 


E [sepa Da ) — Lise; ))| | 


S,S'~D” 


由 于 该 式 对 于 每 个 oe {1}” RY, 如 果 我 们 随机 地 对 o 的 每 个 分 量 按照 在 { 士 1) 上 
的 均匀 分 布 来 采样 ， 记 作 Us ， 该 式 也 是 成 立 的 。 因 此 ， 式 (6. 5) 也 等 价 于 


E E [sup 2] >a! ) — eh z) | | 


o~U'! S,S'~D" heH 
由 于 期 望 是 线性 的 ， 该 式 亦 等 价 于 
E E | sup 过 = 
S,S~D" oe~Ur -nen M 


接 下 来 ， 固 定 S 与 S', 令 C 为 在 S 与 S 中 同时 出 现 的 实例 集 。 那 么 ， 我们 可 以 取 只 
在 hEXc 的 上 确 界 ， 因 此 


E | sup +| DJ os(e6h 2! ) = hsz) | 
G 一 [4 


hEH 


So: Uhse! ) — h, a)) | | 


i=l 





= B | max 7 | 2 Sro Uhe )—LUhoz; )) | 


hEH 
+ 


HERAN AEH, 并 记 义 一 a aUh! J= Ch, z;)) 。 由 于 Ele |= 0 H G, 是 在 

[一 1，1j 取 值 的 独立 变量 的 平均 值 ， 因此 由 Hoeffding 不 等 式 ， 对 于 每 个 p>0 
PEI o, |> p] < 2exp(— 2mp’) 
利用 在 hE He 上 的 联合 界 ， 可 以 得 到 ， 对 于 任意 po 
P| max| 6, | p| < 2| He | exp(— 2mo” ) 
最 后 ， 由 附录 A 中 引 理 A.4 可知， 上 和 式 表明 
B| mgx10， | | < 4+ vlog(| He |) He |) 
heH V 2m 

联 立 上 述 各 式 与 AEX, FE 

sup| Lp (h)— Ls(h)| | < AT y loglry (2m) ) / log Cry (2m) ) 


E |: = < 
S-D”- hEH / 2m 


6.6 小 结 
学 习 理论 的 基本 定理 采用 VC 维 的 概念 描述 了 二 分 类 问题 的 PAC 可 学 习性 。 一 个 类 的 
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VC EPRA HEI. FE TIA TRER ARR. EAR ERR PRE 
PAC 可 学 习 的 当 且 仅 当 它 的 VC 维 是 有 限 的 ， 并 且 给 出 了 PAC 学 习 所 需 的 样本 复杂 度 。 该 
定理 也 表明 如 果 一 个 问题 确实 是 可 学 习 ， 那 么 该 问题 具有 一 致 收敛 性 并 且 采 用 ERM 规则 可 
以 实现 可 学 习 。 


6.7 文献 评注 

VC 维 的 定义 以 及 它 与 可 学 习性 和 一 致 收敛 性 的 联系 源 于 Vapnik 和 Chervonenkis 
(1971) 的 工作 。VC 维 与 PAC 可 学 习性 的 定义 之 间 的 联系 源 于 Blumer, Ehrenfeucht, 
Haussler, LAR Warmuth(1989) 的 工作 。 

自 VC 维 的 概念 提出 以 来 ， 陆 续 出 现 了 一 些 对 它 的 推广 。 例 如 ，fat-shattering 维度 描 
述 了 一 些 回 归 问 题 的 可 学 习性 (Kearns，Schapire &. Sellie 1994; Alon, Ben-David, Cesa- 
Bianchi & Haussler 1997; Bartlett, Long & Williamson 1994; Anthony & Bartlet 
1999)， 纳 塔 拉 往 维度 描述 了 一 些 多 类 学 习 问 题 的 可 学 习性 (Natarajan 1989) 。 然 而 ， 对 于 
一 般 的 情况 ， 可 学 习性 和 一 致 收敛 性 不 是 等 价 的 。 详 见 (Shalev-Shwartz，Shamir，Srebro 
&.Sridharan 2010; Daniely, Sabato, Ben-David & Shalev-Shwartz 2011), 

Sauer 引 理 是 Sauer 为 了 解决 Erdos 问题 而 证 明 的 (Sauer 1972), Shelah 和 Perles 证 
明了 该 引 理 对 于 Shelah 的 稳定 模型 理论 很 有 用 (Shelah 1972), Gil Kalai 还 曾 提 到 2 ， 后 来 
Benjy Weiss 请 Perles 针对 遍历 理论 证 明 该 引 理 ，Perles 忘记 了 自己 曾经 证 明 过 ， 于 是 又 
证 明了 一 次 。Vapnik 和 Chervonenkis 在 统计 学 习 理 论 中 也 对 该 引 理 给 出 了 证 明 。 


6.8 练习 
6.1 请 说 明 下 述 关 于 VC 维 的 单调 性 : MFR ARIA, WRH CH, A 
VCdum(H’)<VCdim(H) , 
6.2 给 定 菜 个 有 限 域 Y， 以 及 一 个 数 ti | 区 | ， 请 指出 下 列 几 类 的 VC 维 并 证 明 : 
1) HE, {hE {0, 1)*: |{x: h(x) 二 1}| 二 k): 即 所 有 将 的 个 元 素 赋值 为 1 的 函数 
组 成 的 集合 。 
2) Hamoir =(AE{0, 1}¥: |{z: AZz) 王 1)| 委 或 | {zx: h(x) =0}|<k}, 
6.3 令 t 是 一 个 布尔 超 立 方 {0，1)"。 对 于 集合 IE{(1，2，…，72)， 我 们 定义 一 个 奇偶 函 
数 hi 如 下 。 对 于 一 个 二 值 向 量 x= (zi， Tzs A, Hq) E 40; Lipe 
hi(x)( > jri) mod 2 


a | 
CBN h 计算 了 了 的 字 节 的 奇偶 性 。) 请 问 所 有 这 种 奇偶 函数 组 成 的 假设 类 (Hi, 二 (her: 
I<{1, 2, +, ns} MW VC 维 是 多 人 少 ? 
6.4 我们 证 明 Sauer 引 理 是 通过 证 明 对 于 每 个 有 限 VC 维 d 的 假设 类 入 ， 以 及 每 个 域内 子 
集 A 有 下 式 成 立 : |Hal< |{BCA:H 打 散 BS |< i ) 


i=0 l 
试 说 明 上 式 中 存在 两 个 不 等 号 严格 成 立 的 情况 ( 即 志 可 以 换 为 二 )， 也 存在 两 个 不 等 
号 可 以 换 为 等 号 的 情况 。 并 证 明 所 有 这 4 种 组 合 的 情况 。 
6.5 ÆR 上 平行 于 坐标 轴 和 矩形 的 VC 维 : SH 是 在 R 上 平行 于 坐标 轴 和 矩形 类 。 我 们 已 
经 说 明了 VCdim(74) 一 4， 请 证 明 对 于 一 般 的 情况 ，VCdim(X* )=2d, 


http: //gilkalai. wordpress. com/2008/09/28/ext remal-combinatorics-iii-some-basic theorems, 
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6. 6 布尔 合 取 的 VC 维 : SH n NETE Liy …zs(d 宇 2) 上 的 布尔 合 取 类 。 我 们 已 经 知道 


这 个 类 是 有 限 的 ， 因 此 是 (不 可 知 )PAC 可 学 习 的 。 现 在 我 们 来 计算 VCdim(H%): 
1) 说 明 | Hon, | 3+1. 

2) 推导 VCdim(H)<dlog3, 

3) WHH FT a TPL el ea MEG fe; std}. 


**4) 说 明 VCdim(H4,,)<d. 


6 7 


“6.8 


6.9 


提示 : 假定 上 式 不 成 立 ， 即 存在 一 个 集合 CH leis os Capi} RHIA. A 
his ots hay HS, P RIE: 
0 t=] 


Vij € Hut = |, ta 


对 于 每 个 1iEL& 二 1]j， 太 (更 准确 地 说 是 与 h; 有 关 的 合 取 ) 和 包含 了 某 个 文字 [;， 该 
文字 对 于 每 个 (Ai 在 ci 上 为 假 而 在 c; LAR. REBAR, LEEI 
i<<j 委 CC 十 1 使 得 Fol 使 用 了 同样 的 变量 xX,， 而 后 基于 这 个 事实 当 考 虑 hh，h 
的 合 取 时 会 得 到 矛盾 。 

5) 考虑 在 {0，1} ”上 的 单调 布尔 合 取 类 Xho,。 在 这 里 单调 性 指 的 是 合 取 式 不 包含 负 
值 。 如 在 X64 中 ， 空 的 合 取 可 以 解释 为 所 有 值 均 为 正 的 假设 。 我们 将 所 有 值 均 为 
PERIE h 加 入 到 Kh 中。 请 说 明 VCdim Hion) =d. 

我 们 已 经 说 明 对 于 有 限 的 假设 类 区 ，VCdim(K) 达 | log(|KK| )]， 然 而 这 只 是 一 个 上 

界 。 一 个 类 的 VC 维 其 实 可 以 变 得 更 小 : 

1) 找到 一 个 例子 说 明定 义 在 实 区 间 二 二 L0，1j 上 函数 组 成 的 假设 类 戏 是 无 限 的 ， 但 
是 其 VCdim(H)=1, 

2) 给 出 一 个 例子 ， 定 义 在 实 区 间 庆 二 [0，1] 上 函数 组 成 的 假设 类 ZX 是 有 限 的 ， 但 是 
H VCdim(H) =Llog, (| H| )J. 

我 们 经 常会 发 现 一 个 假设 类 的 VC 维 等 于 定义 假设 类 所 需 的 参数 个 数 ( 或 可 以 此 为 

界 ) 。 例 如 ， 如 果 了 4 是 在 R 上 平行 于 坐标 轴 的 矩形 类 ， 那 么 VCdim(H)=2d, SF 

用 来 在 RY 上 定义 矩形 所 需 的 参数 个 数 。 这 里 给 出 一 个 例子 来 说 明 上 述 规 律 并 不 总 是 

正确 的 。 我 们 将 会 看 到 一 个 假设 类 可 能 是 很 复杂 的 甚至 是 不 可 学 习 的 ， 但 是 其 相关 

的 参数 却 很 少 。 

考虑 域 二 一 了 及， 假设 类 为 

H = {zx sin(@) 1:8 E R} 

(这 里 ,我们 取 [ 一 1 1 二 0)。 证 明 VCdim(H) 一 cc。 

提示 : 有 很 多 方式 可 以 证 明 待 证 结论 。 上 比如 可 以 者 虑 下 述 引 理 . 如 果 0. Titr °° HE 

XE(0，1) 的 二 进 制 展 开 ， 那 么 对 于 任意 自然 数 m，|[ sin(2”xnx)] 二 (1 一 x,)， 继 而 

34kms. t. t= le 

SHEI SAKE, E 

H = {habs 2 SS. bys E = lly? 

其 中 

5 Fx Elab] 

hastis (E) = =—s a2 ¢ [a;b] 


请 计算 VCdim(H), 


6.10 ” 令 和 是 从 + 到 {0，1) 的 函数 类 。 


D 证 明 : 如 果 VCdim(H) Sd, WER d, HFRS EX (0. 1} EWR 
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下 


D， 对 于 每 个 样本 规模 mx， 有 
E [Lo(A(S))] => oe minLp (h) Se i 
sre 
提示 : 利用 第 5 章 中 的 习题 5. 3。 
2) WEH: 对 于 每 个 PAC 可 学 习 的 央 ， 有 VCdim(ZH) 二 oo (注意 到 这 意味 着 定理 6.7 


中 3 一 6 成 立 )。 
组 合 VC 维 : SH, =, H, 是 在 某 个 固定 域 T+ 上 的 假设 类 。 令 d= 二 max;VCdim(X;)， 
为 了 简化 分 析 ， 假 定 d>3. 

1) 证 明 : 


VCdim(U H;) < 4dlog(2d) + Zlog(r) 
提示 : 取 一 个 由 上 个 样本 构成 的 集合 并 假定 该 集合 可 由 组 合 的 类 打 散 。 因 此 ， 组 合 
的 类 可 以 在 这 些 样本 上 产生 所 有 2 种 可 能 的 标签 方式 。 利 用 Sauer 引 理 可 得 组 合 类 
不 会 产生 比 rk! 种 更 多 的 标签 方式 ， 因 此 就 得 到 了 2 二 rk*。 之 后 利用 引 理 A. 2。 


* 2) 证 明 对 于 > 一 2 下 式 成 立 : 


VCdim(H, U He) < 2d +1 
Dudley 类 : 在 本 题 中 ， 我 们 讨论 一 种 用 来 定义 在 R 上 概念 类 的 代数 框架 并 且说 明 
这 样 的 类 的 VC 维 与 其 代数 性 质 之 间 的 联系 。 给 定 一 个 函数 f:R" 一 民 ， 我 们 定义 其 
相关 的 函数 ，POS( 有) (zx) 二 Icw>sol。 对 于 一 个 实 值 函数 类 我 们 定义 一 个 相关 的 也 
BEE POS(CF)= 王 {(POS( 户 :FE 大 )。 我 们 说 一 个 实 值 郴 数 族 下 是 线性 封闭 的 ， 如 果 对 
于 所 有 的 F，gEGF 以 及 rER， 都 有 (Frg)E 天 (其 中 国 数 的 相 加 与 标量 乘法 是 逐 
点 定义 的 ， 即 对 于 所 有 ER. (ftrg)(a)=fladtrge(2)). ERP MRT HK 
TG FES A A RAT AS SYS s x 间 。 对 于 一 个 函数 g:R'—R 


和 一 个 函数 族 下 ， AF+g= {Es 对 于 某 个 回 量 空 间 和 和 某 个 函数 g 可 以 
表示 为 POSE AO ABLES BERKS Dudley 类 。 
1) 说 明 对 于 如 之 前 定义 的 每 个 g: 权 一 及 和 每 个 图 数 类 大 的 向 量 空 间 ， 有 
VCdim(POS(F+ g)) = VCdim(POS(F)) )。 
XY BE PA ES AT AY SE PREF, HRX POSCH VC 维 等 于 大 作为 向 量 
空间 的 线性 维度 。 提 示 : & fis or, fa 是 回 量 空间 上 的 基 。 考 虑 映射 | 一 
(fila), ss fala OM R 到 R), RIZA T RE EPOSA H 
RR R 上 平凡 线性 空间 之 间 的 对 应 (第 9 章 中 分 析 平 凡 线 性 空间 类 的 VC 维 ) 。 
说 明 下 列 每 个 类 都 可 以 被 表示 为 Dudley 类 
(1) RE 上 的 半空 间 类 互 S,( 见 第 9 章 )。 
(2) P 上 的 所 有 平凡 半空 间 构 成 的 类 HAS, CULES 9 章 )。 
(3) 由 在 RY 上 ( 开 ) 球 定义 的 所 有 函数 构成 的 类 By. FAY Dudley 表示 指出 该 类 
的 VC 维 。 
(4) 令 Ps 表示 由 阶 数 <d 的 多 项 式 不 等 式 定义 的 函数 构成 的 类 ， 即 
Ps as ‘hyip 是 阶 数 <d 是 多 项 式 , 变 量 为 S ye 
其 中 对 于 x= Cas ots Oy) hy) =U pos) (多 元 变量 多 项 式 的 阶 就 是 其 所 
有 项 中 指数 和 的 最 大 值 。 例 如 ，p(x) 二 3zx?z2 十 47z3z? 的 阶 为 5)。 
© 利用 Dudley 表示 指出 类 PICE R EMS d 阶 多 项 式 类 ) 的 VC 维 。 
© 证 明了 及 上 所 有 多 项 式 分 类 器 构成 的 类 具有 无 限 的 VC 维 。 
© 利用 Dudley 表示 指出 类 Pl (表示 为 & 和 nn 的 函数 ) 的 VC 维 。 
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目前 为 止 ， 本 书 所 讨论 的 PAC 可 学 习 的 概念 是 考虑 依据 精度 和 置信 参数 来 决定 样本 
数量 ， 前 提 条 件 是 ， 样 本 标签 分 布 与 内 在 的 样本 数据 分 布 是 一 致 的 。 因 此 ， 类 别 可 学 习 是 
有 条 件 的 ， 样 本 必须 具有 有 限 的 VC 维 ( 如 定理 6.7 的 说 明 )。 在 本 章 中 ， 我 们 考虑 更 松 
的 、 更 弱化 约束 条 件 下 可 学 习 的 概念 。 我 们 将 讨论 这 些 概念 的 用 途 ， 以 及 提供 在 这 种 新 定 
义 下 可 学 习 概念 类 的 特征 描述 。 

首先 ， 我 们 定义 一 个 “不 一 致 可 学 习 ” 的 概念 ， 这 个 概念 下 允许 样本 数量 依赖 于 学 习 
器 所 在 假设 空间 而 变化 。 然 后 ， 我 们 描述 “不 一 致 可 学 习 ” 的 特征 ， 指 出 “不 一 致 可 学 
习 ” 是 不 可 知 PAC 可 学 习 的 严格 松弛 。 我 们 还 论证 了 “不 一 致 可 学 习 ” 的 一 个 充分 条 件 
fe: 姑 是 一 个 假设 类 别 的 可 数 并 集 ， 并 且 集 合 中 的 每 个 假设 类 都 具有 一 致 收敛 属性 。 这 个 
结论 将 在 7. 2 节 给 出 证 明 ， 证明 过 程 中 用 到 了 结构 风险 最 小 化 (SRM) 机 玫 学 习 范 例 。 在 
7. 3 节 我 们 具体 描述 了 一 种 用 于 假设 类 可 数 并 集 的 SRM 法 则 ，SRM 范例 是 通过 最 小 描述 
长 度 (MDL) 方 法 实现 的 。MDL 方法 给 出 了 一 种 类 奥 卡 姆 剃刀 哲学 原理 的 形式 化 例证 。 然 
后 ,在 7.4 节 ,我 们 引入 了 一 致 性 这 种 更 加 弱化 的 可 学 习 概 念 ， 最 后 ， 分 析 了 各 种 可 学 习 
概念 的 用 途 和 意义 。 


7. 1 不 一 致 可 学 习 概 述 

“不 一 致 可 学 习 ” 人 允许 学 习 器 针对 所 竞争 的 不 同 假 设 使 用 不 同 数量 的 样本 。 我 们 认为 
一 个 假设 及 以 (e， 可 与 男 一 个 假设 竞争 ， 如 果 下 式 成 立 的 概率 不 少 于 (1 一 6)， 

Lp (h) X<Lpth’) +e 

E PAC 可 学 习 中 ， 没 有 用 到 “竞争 力 ” 的 概念 ， 当 我 们 寻找 具有 绝对 的 最 小 风险 的 假设 
(在 可 能 的 情况 下 ) 或 者 寻找 一 个 与 最 小 风险 差不多 风险 (在 绝对 最 小 风险 不 可 知情 况 下 ) 的 
假设 ， 样 本 数量 仅仅 依赖 于 精度 和 置信 度 。 然 而 ， 在 不 一 致 学 习 中 ， 我 们 允许 样本 数量 以 
mx (e，6，h) 的 形式 表示 ， 也 就 是 说 ， 不 一 致 可 学 习 在 表示 形式 上 也 依赖 竞争 力 变 量 h。 


定义 7.1 若 存 在 一 个 学 习 算 法 A Fo—4 DH mY": (0, 1)? XH>N, 使 得 对 于 任意 
He, EO, DERECH, RAAE m>my (le, 0, h), MAMBENDAHD Fo Hf A 4 
样本 S~D"”， 下 式 成 立 的 概率 不 少 于 1 一 6， 
Lp(A(S)) <Lp(h) +e 
则 假设 类 姑 是 不 一 致 可 学 习 的 。 
此 时 ， 回 想 下 不 可 知 条 件 下 PAC 可 学 习 的 定义 (定义 3.3) 也 许 有 帮助 : 
车 存 在 一 个 学 习 算 法 A 和 一 个 函数 may :(0，1)2->N， 使 得 对 于 任意 gs，SE(0，1) 和 
任 一 个 分 布 D， 如 果 样 本 数量 mm, (e，6)， 那 么 对 所 有 的 样本 S~D”"， 下 式 成 立 的 概率 
RFT 1 一 
Lp(A(S)) < minLo (h) +e 
MERHER Tag F PAC 可 学 习 的 。 
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注意 ， 这 就 表示 对 于 任 一 个 EK， 有 下 式 成 立 
Lp(A(S)) < Lp(h) +e 
在 以 上 两 类 可 学 习 中 ， 我 们 要 求 输出 假设 与 在 假设 类 中 的 其 他 假设 相 比 具有 (se，6) 苋 
争 力 。 但 是 两 类 假设 也 有 区 别 ， 那 就 是 在 不 一 致 可 学 习 中 ， 样 本 数量 m HRT ACS) FR 
对 应 的 假设 h， 而 不 知 条 件 下 PAC 可 学 习 不 依赖 于 h。 同 时 ， 我 们 注意 到 不 一 致 可 学 习 比 
PAC 可 学 习 对 假设 条 件 要 求 更 少 ， 也 就 是 说 ， 如 果 一 个 假设 类 是 不 可 知 条 件 下 PAC 可 学 
习 ， 那 么 它 也 是 不 一 致 可 学 习 的 。 


不 一 致 可 学 习 的 特征 

我 们 的 目标 是 定义 不 一 致 可 学 习 的 特征 。 在 之 前 的 章节 中 ， 通 过 说 明 两 类 分 类 需 假 设 
类 是 不 可 知 条 件 下 PAC 可 学 习 的 充 要 条 件 是 它 的 VC 维 是 有 限 的 ， 我 们 已 经 找到 PAC 可 
学 习 类 的 简要 特征 。 接 下 来 的 理论 分 析 中 ， 我 们 发 现 了 在 两 类 分 类 器 上 ， 不 一 致 可 学 习 与 
不 可 知 PAC 可 学 习 不 同 的 特征 。 

定理 7.2 两 类 分 类 器 的 假设 类 ZX 是 不 一 致 可 学 习 的 当 且 仅 当 它 是 不 可 知 PAC 可 学 习 
假设 类 的 可 数 并 。 

定理 7.2 的 证 明 依 赖 于 下 面 的 定理 7. 3。 

定理 7.3 邻 一 个 假设 类 能 够 写成 假设 类 的 可 数 并 ， H= Un te RH,, 7 — RIK SE 
的 ， 那 么 和 4 是 不 一 致 可 学 习 的 。 

回想 下 ， 在 第 4 章 中 我 们 提 到 一 致 收敛 是 不 可 知 条 件 下 PAC 可 学 习 的 充分 条 件 ， 定 
H 7. 3 将 这 个 结论 推广 到 不 一 致 可 学 习 。 下 一 节 中 引入 一 个 新 的 学 习 定 理 来 证 明定 理 7. 3。 
现在 我 们 证 明定 理 7. 2。 

定理 7. 2 的 证 明 

充分 性 : BEH= UH, H, 是 不 可 知 条 件 下 PAC 可 学 习 的 。 应 用 统计 学 习 的 基本 理 
论 ， 每 一 个 入, 都 遵循 一 致 收敛 属性 。 由 定理 7. 3 可 知 ， 允 是 不 一 致 可 学 习 的 。 

必要 性 : 假定 戏 是 不 一 致 可 学 习 的 并 且 使 用 算法 A。 对 于 每 一 个 mrEN， 令 和 ,一 (AGE 
H:my ™ (1/8, 1/7, h)<n}, BR, 姑 二 U1。 此 外 ， 通 过 my 的 定义 ， 我 们 知道 对 于 
任何 关于 也 满足 可 实现 性 假设 的 分 布 D， 选 择 样本 S 一 D” 概率 大 于 等 于 6/7， 则 
Lp(A(S)) 三 1/8。 由 统计 学 习 理 论 可 知 ，XM 的 VC 维 一 定 是 有 限 的 ， 因 此 KH, 是 不 可 知 条 
件 下 PAC 可 学 习 的 。 a 

下 面 的 例子 说 明 不 一 致 可 学 习 是 不 可 知 条 件 下 PAC 可 学 习 的 严格 松弛 。 也 就 是 说 ， 
存在 假设 类 是 不 一 致 可 学 习 的 ， 但 不 是 不 可 知 条 件 下 PAC 可 学 习 的 。 

考虑 一 个 二 分 类 问题 ， 样 本 在 实际 数 域 上 取 值 。 对 于 任意 nN, H, 是 n 次 
多 项 式 分 类 器 构成 的 假设 类 ， 也 就 是 说 ， 了 和, 是 形 如 有 h(x) 二 sign(p(x)) 的 所 有 分 类 器 集 
Ao RE p E 了 -> 了 的 7 次 多 项 式 。 SH= UH,» WHE AM R 上 所 有 多 项 式 构成 的 假 
设 类 。 容 易 证 明 X 的 VC AES Foo, H, 的 VC 维 为 n 十 1( 详 见习 题 7.12), Bik, HRE 
PAC 可 学 习 的 ， 根 据 定 理 7.3, H 是 不 一 致 可 学 习 的 。 要 
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7.2 结构 风险 最 小 化 

目前 为 止 ， 我 们 已 经 通过 具体 化 一 个 假设 类 对 来 利用 先 验 知识 ， 并 且 我 们 相信 这 样 一 
个 假设 类 中 包含 完成 当前 任务 的 有 效 预测 器 。 然 而 ， 另 一 种 表达 先 验 知识 的 方式 是 将 假设 
类 XW 上 的 偏好 具体 化 。 在 结构 风险 最 小 化 范例 中 ， 我 们 已 经 这 样 做 了 ， 首 先 假定 允 能 够 写 
KH UF, SRG LAME A HE PR w:Nr>L0，1]j， 这 个 权重 函数 给 每 个 假设 类 赋予 一 
个 权重 ,高 的 权 值 表示 对 该 假设 类 的 强烈 偏好 。 在 这 一 节 中 ， 我 们 讨论 如 何 学 习 这 样 的 先 
验 知 识 。 在 下 一 节 中 ， 我 们 描述 一 类 重要 的 权重 方法 ， 包 括 最 小 描述 长 度 。 

具体 来 说 ,假设 HK 是 一 个 能 够 写成 形 如 XK 二 UH, 的 假设 类 。 例如， 可 能 是 所 有 多 项 
式 分 类 器 构成 的 类 ， XH, 表示 并 次 多 项 式 分 类 融 构成 的 类 ( 详 见 例 7. 1)。 假 定 ， 对 于 任 一 个 
ns H, 类 满足 一 致 收敛 属性 ( 详 见 第 4 章 定 义 4.3)， 且 样本 复杂 度 了 因数 为 my :(e，6)。 通 
过 下 式 定义 函数 e:NX(0，1) 一 (0，1)， 

é,(m,d) = minte € (0,1) :my (e606) < m) C7. 1) 
总 之 我 们 有 一 个 固定 的 样本 数量 m, 我 们 感 兴趣 的 是 给 定 m 个 样本 ， 经 验 风 险 和 实际 


风险 之 差 最 小 的 概率 上 界 。 


从 一 致 收敛 的 定义 和 ev， 它 遵 循 对 于 任 一 个 mm Fld. FEAR SS 一 TD" ， 下 式 成 立 的 概率 不 
少 于 1 = 
Vh EH, |Lp th) —Lsth) |< e, (mð) (7.2) 


令 w:N>[L0，1j 表 示 一 个 函数 ,满足 Dam <1, 我 们 定义 w 是 假设 类 Xl，XK;，… 的 一 


个 权重 函数 ， 这 样 一 个 权重 函数 可 以 反映 每 个 假设 类 学 习 属 性 的 重要 性 ， 或 者 不 同 假设 类 

复杂 性 的 度量 。 如 采 戏 是 N 个 假设 类 的 有 限 并 ， 我 们 也 可 以 简单 地 对 任 一 个 假设 类 赋予 
1/N 的 权重 ， 同 等 的 权重 意味 着 对 任 一 假设 类 没有 先 验 的 偏好 。 当 然 ， 如 果 你 认为 某 个 假 
设 类 更 有 可 能 包含 正确 的 目标 函数 ， 就 可 以 给 该 假设 类 赋予 较 大 的 权重 来 反映 这 种 先 验 知 
识 。 当 XH 是 一 个 无 穷 ( 可 数 ) 假 设 的 集合 ,虽然 一 致 的 权重 假设 是 不 可 实现 的 ,但 是 很 多 其 


他 的 权重 设置 可 以 使 用 。 例 如 ， 你 可 以 选择 w(n) =P aR wom) 二 2™。 在 本 章 的 后 面部 


分 ， 我 们 将 使 用 描述 语言 介绍 一 种 更 加 方便 的 定义 权重 函数 的 方法 。 

结构 风险 最 小 化 是 一 种 “最 小 化 界 ” 的 方法 。 这 就 是 说 结构 风险 最 小 化 是 要 寻找 一 个 
假设 类 来 最 小 化 真实 风险 的 上 确 界 。 结 构 风 险 最 小 化 原理 期 望 最 小 化 的 界 将 在 下 面 的 定理 
中 给 出 。 


定理 7.4 令 w:N>[0，1j 是 一 个 权 值 函数 ,满足 》w(n) 三 1 。H 是 一 个 假设 类 可 以 
n=] 
写成 KH 二 UH, » 对 于 任 一 个 Ms Hh, i XE — BKK SE, 并 且 复 杂 度 表示 函数 为 Mars A e, 8 
方程 (7. 1) 定 义 。 然 后 ， 对 于 任 一 个 6E (0，1) ， 样 本 S~D”"， 对 于 任 一 个 nEN 和 hEX,， 
下 式 成 立 的 概率 不 低 于 1 一 6， | 

| Lp (h) — Ls(h) |<, (m,a(n) » &) 

则 对 于 任 一 个 6€E (0，1) 和 分 布 D， 下 式 成 立 的 概率 不 低 于 1 一 6， 
Vh E 和 Lp) <Ls(h) + mine, mwln) + ò) (7. 3) 
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证 明 ”对 于 任 一 个 n， 定义 6, 二 wn)56。 假 定 对 于 所 有 以 方程 (7.2) 给 出 的 n 都 满足 一 
致 收敛 性 ， 应 用 这 个 假设 可 得 ， 若 我 们 事先 固定 2， 在 选择 样本 S~D” 的 概率 不 低 于 1 一 
条 件 下 ， 

Wh Ee H,.|Lo th) —Lsth)|<e,(m;6,) 
应 用 n= 二 1，2，*… 的 联合 界 ， 我 们 得 到 上 述 结 论 的 概率 不 低 于 1 一 Doo, = 1—8 wln) > 


1 一 6 ， 上 述 论 证 对 所 有 的 n 都 有 效 ， 也 就 完成 了 证 明 。 = 
A 
A 
n(h) = min{n:h € H,} (7.4) 
结合 方程 (7. 3》， 可 得 
Lp(h) < Ls(h) +e, m (mw ln(h)) » ð) 
结构 风险 最 小 化 寻找 假设 h 来 最 小 化 这 个 界 ， 如 下 面 伪 代码 形式 化 表示 : 


结构 风险 最 小 化 (SRM) 


先 验 : 
H=UH, H, BR BIKA, Ld BIA my 


w:N>(0, Ls 其 中 SJw(n) <1 


TEM: c 由 方程 (7. 1) 定 义 ，n(h) 由 方程 (7.4) 定 义 
输入 : 训练 集 S~D”"， 置 信和 度 人 6 
输出 : hEargminmexnLLs(h)ew ns w(nth)) » d)] 





与 前 面 章节 讨论 的 ERM( 经 验 风 险 最 小 化 ) 不 同 ， 我们 不 仅 关 心经 验 风险 Ls(h)， 而 
且 为 了 最 小 化 估计 误差 ， 更 加 关心 在 最 小 经 验 风 险 的 偏 置 和 ex Cm，wln(h))，6) 最 小 化 
之 间 取 得 一 个 平衡 。 

然后 我 们 揭示 了 结构 风险 最 小 化 能 够 用 于 每 个 类 的 不 一 臻 学习， 这 里 的 不 一 致 学 习 指 
的 是 一 致 收敛 假设 类 的 可 数 并 。 

定理 7.5 令 3t 是 假设 类 ， 满 足 ?一 3t, ， 和 ,满足 一 致 收效 性 ， 并 且 复 杂 度 表示 函数 
为 my ， 如 果 w:N>[0, ] | 满足 w(n) = 那么 ， 和 是 不 一 致 可 学 习 的 ， 结构 风险 最 小 
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my (59 全) 太 ) my (e/2， = )? ) 


证 明 假定 A 是 考虑 权重 清 数 w 的 结构 风险 最 小 化 算法 。 对 于 每 一 个 AEH, © 和 6， 
& mmy, (e，w(n(h))6)。 根 据 >)w(n) 二 1 ， 选 择 样本 S~D” 的 概率 不 低 于 1 一 8， 应 
用 定理 7.4， 可 以 得 到 对 于 任 一 个 hEX,， 下 式 成 立 ， 
Lp th’) < Lsth') + enn) (mw ln(h'))d) 
这 个 定理 对 于 由 结构 风险 最 小 化 规则 返回 的 假设 A(S) 成 立 。 通 过 结构 风险 最 小 化 的 
定义 可 得 
Lp (A(S)) < minLLs(h') + enn’) (msw(nth'))d) | < Ls Ch) te (mw nh))o) 





如 果 MSE (6/2, wnh), WBA en M, wh) )d)e/2 RE. Ih MESH, 
的 一 致 收敛 属性 ， 我 们 可 得 下 式 成 立 的 概率 大 于 1 一 6， 
Ls(h) < Lp(h) +e/2 

综 上 所 述 ， 可 得 Lp (A(S)) 过 Lp (h) 十 e， 定 理 得 证 。 m 

注意 ， 前 面 的 理论 也 证 明了 和 定理 7. 3。 

评注 (不 一 致 可 学 习 的 “没有 免费 的 午餐 ”原理 ) 我 们 已 经 揭示 了 任何 可 数 的 有 限 
VC 维 所 构成 的 类 是 不 一 致 可 学 习 。 结 论 显示 ， 对 于 无 限 域 集 合 莱 ， 所 有 直上 定义 的 二 值 盟 
数 所 构成 的 类 不 是 有 限 VC 维 的 可 数 并 。 我 们 将 这 个 结论 的 证 明 留 作 练 习 7.5。 接 下 来 ， 
在 某 种 意义 上 ， 在 不 一 致 可 学 习 中 “没有 免费 的 午餐 ”理论 也 是 成 立 的 。 也 就 是 说 ， 当 样 
本 域 无 限时 ， 不 存在 关于 所 有 确定 性 二 类 分 类 融 所 构成 的 类 的 不 一 致 学 习 俘 (尽管 对 于 每 
一 个 分 类 器 存在 一 个 尝试 算法 能 够 学 习 包含 这 些 分 类 器 假设 的 结构 风险 最 小 化 ) 。 

单独 比较 7. 5 节理 论 所 表述 的 不 一 致 可 学 习 和 任何 XH 的 不 可 知 条 件 下 PAC 可 学 习 任 
务 ， 是 非常 有 意思 的 。 先 验 知识 、 偏 置 和 不 一 致 学习 帮 估 计 7X 是 不 够 充分 的 ， 它 需要 在 全 
空间 上 搜索 一 个 模型 ， 而 不 是 在 特定 Hr 上 搜索 一 个 模型 。 利 用 先 验 知识 缺陷 所 带 来 的 成 
本 就 是 增加 复杂 度 来 与 特定 的 hEX, 相 竞争 。 对 于 这 种 差异 的 简单 估计 就 是 ， 考 虑 到 0 一 1 
损失 的 二 值 分 类 任务 。 假 定 对 于 所 有 n, H, 的 VC 维度 为 n。 因 为 my Ce, 6) = 


Clog 1/0) C 是 定理 6. 8 中 所 出 现 的 数 )， 一 个 直接 的 计算 表明 
mi (48h) — mF (e/2,8) < 4C 2890 


也 就 是 说 ， 从 特定 XH, 中 挖掘 先 验 知识 的 成 本 ,包含 目标 h 来 度量 类 的 集合 ， 这 个 类 X, 包 
含 标签 来 建立 一 个 假设 类 的 可 数 并 。 这 些 类 依赖 于 h 所 在 的 第 一 类 的 对 数 索 引 。 代 价 增 
加 了 类 的 索引 ， 可 以 解释 为 反映 已 知 的 假设 类 7 的 好 的 先 验 知识 的 排序 值 。 


7.3 最 小 描述 长 度 和 奥 卡 姆 剃刀 

令 3 是 可 计算 的 假设 类 ， 那 么 ， 我 们 将 % 写 成 单个 类 的 可 数 并 ， 也 就 是 X 一 U A). 
由 Hoeffding KER GIM 4.5)， 每 一 个 单 类 有 一 致 收敛 性 ， 收 敛 速率 m (e，5) = 
OBL 。 因此， 方程 (7. 1) 所 给 出 的 函数 ©, 变 成 se,C(m， 约 一 \/ BZ ， 目 结构 风险 最 


小 化 变 成 
argmin| Ls(h) + — log(w(n)) + lo (2703| 
h,EH 2m 


等 价 地 ， 我 们 可 以 认为 w AHEL, LIA PRB, IR Ba AU MEE a 
argmin| Leh) +, EWA Flog | 


2m 
接 下 来 假定 前 提 条 件 ， 先 验 知识 单纯 由 我 们 分 配给 每 个 假设 类 的 权重 决定 。 我 们 对 可 能 正 
确 的 假设 分 配 较 高 的 权重 ， 并 且 在 机 器 学 习 中 我 们 偏爱 权 值 高 的 假设 。 

这 方 中 我 们 讨论 一 种 特别 方便 的 方式 定义 ZH 的 权重 函数 ， 这 个 方法 起 源 于 假设 的 描述 
长 度 。 有 一 个 假设 类 ， 我们 想 知 道 如 何 描 述 和 表示 每 一 个 类 中 的 假设 。 自 然 地 ， 我 们 聚焦 
在 一 些 描述 语言 中 想 办 法 。 这 些 语言 可 能 是 英语 、 编 程 语言 或 者 一 些 数学 公式 。 任 何 一 种 
语言 中 ， 一 个 描述 都 是 由 一 些 特定 的 字母 所 组 成 符号 的 有 限 字 符 串 构成 。 现 在 ,我们 形式 
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化 这 些 概念 。 

令 和 是 我 们 要 描述 的 假设 类 ， 定 义 有 限 符号 集合 之 ， 我 们 称 之 为 字母 表 。 有 具体 地 说 ， 
RIS D=(0, 1}, -FREED PHARA SIFA. HN, o=(0O, 1, 1, 1, OMF 
符 串 长 度 为 5。 我 们 用 |c| 表 示 字 符 串 的 长 度 。 所 有 有 限 字 符 串 的 集合 用 之 " 表示。 对 戏 的 
描述 语言 用 一 个 函数 d: HE, RHPA BE A (BR AEB dh), dPR 
为 h 的 描述 长 度 ， 并 且 的 描述 长 度 用 |h | 表示 。 我 们 要 求 描 述 语言 无 前 级， 也 就 是 说 不 
EAJ h, h's, d ORE d(h') 的 前 级 。 也 就 是 ， 我 们 不 允许 任何 一 个 字符 串 d(h) 与 为 一 个 
长 字符 串 da(h') 的 前 14| 个 的 符号 完全 一 致 。 无 前 级 的 字符 串 集 合 满足 下 面 的 组 合 属性 : 


引 理 7. 6(Kraft RFX) 如 果 SC(0，1)* 是 一 个 无 前 级 的 字符 囊 集合 , 则 D oo <l 
a€S 


证 明 定义 成 员 S 的 一 个 概率 分 布 如 下 : 重复 掷 一 个 均匀 的 硬币 ， 两 个 面 分 别 用 0 和 
1 表示 ， 直 到 序列 的 结果 是 S 的 一 个 成 员 ， 此 时 停止 掷 硬 币 。 对 于 任 cES，P(c) 表 示 由 上 
述 过 程 产 生字 符 串 o 的 概率 。 注 意 到 由 于 S 无 前 缀 ， 对 于 每 一 个 aGES， 每 一 次 抛 硬币 的 结 
RE o 的 比特 位 一 致 ， 当 抛 硬 币 的 输出 序列 等 于 时 停止 抛 硬币 。 因 此 ， 我 们 可 以 得 到 对 


于 每 一 个 ES，P(a) 一 让 sr ， 由 于 概率 最 大 之 可 能 为 1， 因 此 结论 得 证 。 
根据 Kraft 不 等 式 ， 任 何 假设 X 的 无 前 级 描述 语言 都 能 给 出 假设 类 X 的 权重 函数 wo， 我 
们 可 以 简单 地 设置 为 o(h) 一 57i7。 以 上 现象 可 以 立即 得 到 以 下 理论 ; 


定理 7.7 令 和 是 一 个 假设 类 ，d:H->{0，1)* 是 好 的 一 个 无 前 级 描 述 语 言 。 对 于 样本 
Agm, KERAK S> 和 概率 分 布 D， 样 本 S~D”"， 下 式 成 立 的 概率 大 于 1 一 人 ， 


Vh E HLp(h) <Ls(h) + A peo 


ZPJ Hd AWK. 


证 明 选择 w(h) 一 25147， 应 用 定理 7.4, e,(m, D=, | 2E 


2m 


o 注意 到 ， In(2!*! ) 一 


lhl ln(2) 一 | 天 | 。 s 
和 定理 7. 4 的 情形 一 样 ， 这 个 结果 给 出 了 对 于 训练 集 S$， 搜 索 假 设 h EW 最 小 化 界 Ls(h) 十 


此 me2/9) 的 9 的 一 个 学 习 范式 。 具 体 地 说 ， 这 种 方法 折 中 考虑 了 经 验 风 险 和 减少 撞 
述 长 度 ， 这 就 得 到 了 最 小 描述 长 度 的 学 习 范 式 。 








最 小 描述 长 度 (MDL) 
先 验 : 

对 是 可 计算 的 假设 类 

允 由 定义 在 {0，1} 上 的 无 前 级 语言 描述 

对 于 任 一 个 hEXN，|h| 表 示 hh 的 长 度 
输入 : 一 个 训练 集 S~D”"， 置 信 度 为 6 


输出 : hE argmin| Ls (h) + canu 
hEH 2m 
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令 和 是 所 有 预测 器 构成 的 类 ， 这 些 预测 器 可 以 通过 像 C++ 一 样 的 编程 语言 
实现 。 用 二 进 制 串 表示 每 一 个 程序 ， 这 些 二 进 制 串通 过 程序 运行 gzip 命令 而 得 到 (这 就 得 
到 了 定义 在 {0，1} 上 的 无 前 级 描述 语言 )。 然 后 ， 当 运行 与 相关 的 C++ 程序 时 ，|h| 仅 
仅 是 输出 的 比特 位 数 。 4 


奥 卡 姆 刹 刀 

定理 7. 7 指出 ， 对 于 经 验 风险 相同 的 两 个 假设 ， 最 小 描述 长 度 较 小 的 假设 ， 其 真实 风 
险 的 风险 误差 界 更 小 。 因 此 ， 这 个 结果 表达 了 一 种 哲学 理念 : 

短 的 解析 (也 就 是 长 度 短 的 假设 ) 比 长 的 解析 更 有 效 。 

这 是 一 个 著名 的 原理 ， 称 之 为 奥 卡 姆 剃刀 ， 以 14 世纪 的 一 个 英国 逻辑 学 家 (威廉 姆 ， 
奥 卡 姆 ) 命 名 ， 威 廉 姆 ， 奥 卡 姆 被 认为 是 第 一 个 清晰 地 表述 了 这 个 原理 。 这 里 我 们 给 出 这 
个 原理 的 一 个 可 能 的 理由 。 根 据 定理 7.7 的 不 等 式 ， 假设 h 越 复杂 (在 这 里 就 是 描述 长 度 
越 长 ) ， 就 需要 更 多 的 样本 来 保证 真实 风险 Lp(h) 最 小 。 

重新 审视 之 下 ， 奥 卡 姆 剃刀 看 起 来 也 有 一 些 问题 。 在 通常 引用 奥 卡 姆 原则 的 情境 中 ， 
自然 语言 是 指 经 过 复杂 度 度 量 的 语言 ， 而 此 处 我 们 将 一 切 任 意 抽象 描述 的 语言 纳 人 考虑 。 
假定 我 们 有 两 个 假设 ，| 产 | 比 | 关 | 短 得 多 。 根 据 之 前 的 结论 ， 如 果 两 个 假设 在 训练 集 S 上 
取得 同样 的 错误 ，h 的 真实 风险 高 于 h ， 因 此 我 们 应 该 倾向 于 偏好 hh 。 然 而 ， 我 们 可 以 选 
择 另 一 种 描述 语言 ， 使 得 的 长 度 为 3， 而 及 的 长 度 为 10 000， 此 时 ， 看 起 来 我 们 应 该 偏 
好 有 hh。 但 是 hh 和 有 ' 与 前 文 所 述 的 选择 偏好 及 时 相 比 并 无 差别 。 此 处 的 陷阱 在 哪里 ? 

的 确 ， 这 里 假设 之 间 没 有 本 质 的 普 适 性 不 同 。 重 要 的 方面 在 于 初始 语言 的 选择 (假设 
偏好 的 先 验 ) 和 训练 集 的 相关 性 顺序 。 根 据 方程 (4. 2) 给 出 的 基本 Hoeffding 界 ， 若 我 们 在 


没有 数据 之 前 先 给 定 假设 ， 则 要 使 得 估计 错误 表达 式 Lo ML (h) 十 /站 相对 较 


小 。 选 择 一 种 描述 语言 (或 者 等 价 地 ， 给 出 假设 的 权 值 ) 是 一 种 较 弱 的 提出 假设 的 形式 。 而 不 
是 所 出 一 个 假设 ， 然 后 在 众多 的 假设 中 传播 这 个 假设 。 只 要 与 训练 样本 无 关 ， 我 们 的 泛 化 误 
差错 就 可 以 保证 。 就 像 选择 单一 假设 用 于 估计 样本 一 样 ， 选 择 描述 语言 也 可 能 是 随机 的 。 


7.4 可 学 习 的 其 他 概念 一 一 一 致 收敛 性 

学 习 的 概念 可 以 进一步 松弛 ， 人 允许 所 需 样本 数量 不 仅 依赖 于 e、6 和 及 ， 而 且 依 赖 产生 
数据 所 依据 的 概率 分 布 D( 概 率 分 布 D 用 于 产生 训练 样本 和 决定 风险 )。 这 种 类 型 的 性 能 保 
证 由 一 种 一 致 收敛 性 的 学 习 规 则 来 给 出 。= 

定义 7.8( 一 致 收敛 性 ) 邻 Z 表 示 一 种 域 的 集合 ,， PP 表示 Z 上 的 概率 分 布 ， 允 表示 假 
设 类 。 若 存在 一 个 函数 17:(0，1)2 XHXP>N AM FIER—AAEH, DEP, e, SE 
(0，1) ， 如 果 m>my" (se，6，A， 也 )， 样 本 S 一 D”， 下 式 成 立 的 概率 不 低 于 1 一 6， 

Lp (A(S)) < Lp(h) +e 

我 们 就 认为 一 个 学 习 规 则 A $ THAP- AKAS, WwRPAH ADA HBA, WRAGEA 
4 By i SK BH, 





O MERE, BSE ae HE SF BEE i ORE 1 — BC HE) BRL SE i E A O BR — Ba 
SUPE) 。 
O FEAL, 我们 假定 Z 被 赋予 sigma 代数 子 集 Q， 以 及 在 相关 子 集中 包含 Q 度量 子 集 的 所 有 的 分 布 。 
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当然 ， 一 致 收敛 性 的 概念 是 我 们 之 前 提 到 的 不 一 致 可 学 习 概 念 的 进一步 松弛 。 显 然 ， 
如 果 一 个 算法 能 不 一 致 可 学 习 一 个 类 XK， 那 么 它 一 定 全 局 一 致 收敛 到 类 ZH。 这 种 松弛 是 严 
格 的 ， 在 这 个 意义 下 说 一 个 算法 是 一 致 收敛 学 习 ， 它 不 一 定 是 不 一 致 可 学 习 的 。 例 如 ， 后 
面 的 例 7. 3 所 定义 的 Memorize 算法 对 于 信 上 所 有 两 类 分 类 器 构成 的 类 是 全 局 一 致 收敛 的 。 
但 是 ， 从 之 前 讨论 的 结论 ， 它 不 是 不 一 致 可 学 习 的 。 


考虑 如 下 定义 的 分 类 预测 算法 Memorize。 这 个 算法 记忆 训练 样本 ， 给 定 一 个 
测试 样本 x， 它 在 所 有 训练 集 存在 的 样本 标签 中 ， 预 测 概率 最 大 的 样本 标签 (也 可 以 是 一 
些 上 默认 的 固定 标签 ， 尽 管 没 有 xz 的 实例 样本 出 现在 训练 集 )。 如 习题 7. 6 所 揭示 的 ，Mem- 
orize 算法 对 于 每 一 个 可 计算 的 域 t+ 和 有 限 的 标签 7(0 一 1 损失 )， 是 全 局 一 致 收敛 的 。 < 


EAZ T, Memorize 算法 作为 一 种 学 习 器 并 不 明显 ， 因 为 它 缺 乏 泛 化 方面 ， 即 使 用 
观测 数据 去 预测 在 训练 样本 集中 没有 出 现 的 标签 的 能 力 。 事 实 上 ，Memorize 算法 对 于 任 
何 可 数 域 集合 上 所 有 函数 的 构成 的 类 都 是 一 致 收敛 算法 ， 因 此 我 们 对 一 臻 收敛 性 保证 的 用 
途 产 生 了 怀疑 。 敏 锐 的 读者 可 能 注意 到 在 第 2 PITA “ARS”. ARES 
MOUNT at, SSC Ett Memorize 算法 。 下 一 节 中 我 们 探讨 不 同 的 可 学 习 概 念 的 
重要 性 ， 并 再 次 应 用 “没有 免费 的 午餐 ”理论 进行 分 析 。 


7.5 探讨 不 同 的 可 学 习 概 念 

我 们 已 经 给 出 三 种 可 学 习 的 概念 ， 现 在 来 讨论 它们 的 用 途 。 通 常 ， 一 个 数学 定义 的 用 
途 取决 于 我 们 为 什么 需要 这 样 一 个 定义 。 因 此 我 们 列 出 几 个 可 能 的 通过 定义 可 学 习 而 期 望 
取得 的 目标 ， 然 后 讨论 应 用 不 同 可 学 习 的 定义 来 实现 这 些 目标 。 

1. 学 习 假 设 的 风险 是 什么 ? 

第 一 个 可 能 的 目标 来 自 于 保证 一 个 学 习 算 法 的 输出 预测 风险 界 。 这 里 ，PAC 可 学 习 
和 不 一 致 可 学 习 都 基于 经 验 风险 给 出 了 学 习 假 设 的 真实 风险 上 界 。 一 致 收敛 性 没有 提供 这 
样 一 个 界 ， 但 是 通常 可 以 使 用 验证 集 来 估计 输出 预测 右 的 风险 (这 将 在 第 11 章 中 描述 ) 。 

2. BRAN Re RISES DEA? 

解决 学 习 问 题 时 ， 一 个 实际 的 问题 就 是 我 们 需要 收集 多 少 个 样本 。 对 此 ，PAC 学 习 
给 出 了 直接 的 答案 。 然 而 ， 不 一 致 可 学 习 和 一 致 收敛 性 事先 没有 给 出 需要 多 少 个 样本 来 学 
习 戏 。 在 不 一 致 学 习 中 ， 样 本 数量 依赖 于 双 中 最 好 的 假设 ， 在 一 致 收敛 性 中 ， 样 本 数量 还 
依赖 于 数据 潜在 的 分 布 。 从 这 个 意义 上 来 说 ，PAC 学 习 是 对 可 学 习性 唯一 有 用 的 定义 。 
为 一 方面 ， 我 们 应 该 记 住 ， 即 使 估计 出 预测 器 的 错误 很 小 ， 如 果 允 有 很 大 的 近似 错误 ， 这 
个 风险 也 可 能 很 大 。 因 此 ， 对 于 “需要 多 少 样本 来 获得 贝 叶 斯 最 优 预测 器 ”这 个 问题 ， 即 
使 是 PAC 也 不 能 保证 一 个 干脆 的 答案 。 这 反映 出 一 个 事实 ， 那 就 是 应 用 PAC 学 习 依 赖 于 
先 验 知 识 的 质量 。 

PAC 保证 也 能 帮助 我 们 理解 ， 当 学 习 算法 返回 一 个 大 风险 假设 时 我 们 下 一 步 应 该 怎 
么 做 ， 这 是 因为 我 们 对 部 分 错误 建立 一 个 界 ， 这 个 界 来 源 于 对 误差 的 估计 ， 因 此 知道 有 多 
少 错误 造成 了 近似 误差 。 如 果 一 个 假设 的 误差 很 大 ， 我 们 知道 应 该 使 用 一 个 不 同 的 假设 
类 。 同 样 地 ， 如 果 一 个 不 一 致 学 习 算 法 失败 ， 我 们 可 以 考虑 在 假设 类 上 使 用 不 同 的 权重 函 
数 。 然 而 ， 当 一 个 一 致 收敛 算法 失败 ， 我 们 不 知道 这 是 由 估计 误差 还 是 近似 误差 造成 的 ， 
甚至 ， 即 使 我 们 确定 问题 是 由 估计 误差 造成 的 ， 我 们 也 不 能 确定 需要 多 少 样本 可 以 使 得 估 
计 误 差 变 小 。 
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3. 如 何 学 习 ? 如 何 表 达 先 验 ? 

学 习 理论 最 有 用 的 方面 是 为 “如 何 学 习 ” 提 供 了 答案 。PAC 学 习 的 定义 突破 本 学 习 
的 限制 (通过 “没有 免费 的 午餐 ”理论 ) 和 必要 的 先 验 知识 。PAC 学 习 通 过 假设 类 的 选择 ， 
给 出 了 应 用 先 验 知识 的 直接 方式 。 一 旦 假设 类 选 定 ， 我 们 就 有 了 一 个 通用 的 学 习 规则 一 一 
经 验 风险 最 小 化 。 不 一 致 可 学 习 也 提供 一 种 应 用 先 验 知识 的 直接 方式 ， 那 就 是 在 假设 类 
或 它 的 子 集 上 定义 权重 , 一旦 权 值 确定 ， 我们 也 有 了 一 个 通用 的 学 习 规 则 一 一 结构 风险 最 
小 化 。 当 先 验 知识 是 有 偏 的 ， 结 构 风 险 最 小 化 在 模型 选择 上 也 有 优势 。 我 们 在 第 11 章 中 
精心 设计 了 模型 选择 ， 在 这 里 只 给 出 一 个 简要 的 范例 。 

考虑 给 定数 据 的 一 维 多 项 式 拟 合 问题 ， 也 就 是 说 ,我 们 的 目标 是 学 习 一 个 函数 
h: 民 习 民 ， 根 据 先 验 知识 ， 考 虑 假设 类 是 多 项 式 ， 但 是 我 们 并 不 知道 次 数 d 为 多 少时 能 够 
在 数据 集 上 给 出 最 好 的 结果 。 次 数 太 低 不 能 很 好 地 拟 合 数据 (比如 大 的 拟 合 误差 )， 次 数 太 
高 则 可 能 会 出 现 过 拟 合 ( 比 如 大 的 估计 误差 )。 接 下 来 我 们 描述 分 别 用 2 次 ，3 次 ，10 次 多 
项 式 来 拟 合 同样 的 数据 集 所 取得 的 结果 。 





不 难看 出 ， 当 多 项 式 次 数 增加 ， 经 验 风 险 下 降 。 因 此 ， 我 们 选择 所 有 次 数 不 大 于 10 
的 多 项 式 构 成 类 戏 ， 然 后 依据 这 个 类 的 经 验 风 险 最 小 化 原则 输出 一 个 10 次 多 项 式 ， 而 这 会 
出 现 过 拟 合 。 男 一 方面 ， 如 果 我 们 选择 次 数 太 小 的 多 项 式 类 ， 比 如 不 大 于 2 的 多 项 式 类 ， 
由 于 欠 拟 合 ， 经 验 风 险 将 会 很 大 (比如 大 的 近似 错误 )。 相 比较 而 言 ， 我 们 可 以 在 所 有 多 项 
式 集合 中 ， 使 用 结构 风险 最 小 化 原则 ， 同 时 强制 子 集 允 依赖 于 各 自 的 多 项 式 次 数 ， 这 将 会 
得 到 3 次 多 项 式 ， 因 为 同时 考虑 了 经 验 风 险 和 估计 误差 界 最 小 化 。 换 句 话 说 ， 经 验 风险 最 
小 化 使 我 们 根据 数据 本 身 选 择 一 个 正确 的 模型 。 获 得 这 种 好 处 的 代价 是 ( 除 稍微 增加 PAC 
学 习 相 关 误 差 佑 计 最 优 多 项 式 次 数 之 外 ) 我 们 事先 不 知道 需要 多 少 个 样本 来 确定 戏 中 的 最 
优 假设 。 

与 PAC 学 习 和 不 一 致 可 学 习 的 概念 不 同 ,一致 收 敛 的 定义 没有 自然 的 学 习 范 式 或 者 
编码 利用 先 验 的 方式 。 事 实 上 ， 大 多 数 情 况 下 都 根本 不 需要 先 验 知识 。 例 如 ， 我 们 看 到 即 
使 Memorize 算法 对 于 定义 在 可 计算 的 域 和 有 限 的 标签 集 上 的 任何 类 都 是 一 致 收敛 算法 ， 
它 本 质 上 还 不 能 称 为 学 习 算 法 ， 这 意味 着 一 致 收敛 是 一 种 非常 弱 的 要 求 。 

4. 我 们 偏好 什么 样 的 学 习 算 法 ? 

有 人 认为 ， 即 使 一 致 收敛 是 弱 条 件 ， 学 习 算 法 也 最 好 要 与 所 有 到 站 的 函数 集合 保持 
一 致 ， 这 样 可 以 保证 只 要 有 足够 的 训练 样本 ， 我 们 总 可 以 得 到 贝 叶 斯 最 优 估 计 。 因 此 我 们 
有 两 种 算法 ， 一 种 是 一 致 收敛 的 ， 另 一 种 不 是 一 致 收敛 的 ， 我 们 应 该 偏好 一 致 收 伍 算法 。 
然而 ， 这 种 说 法 是 有 问题 的 ， 有 以 下 两 个 原因 : 第 一 ， 可 能 在 大 多 数 自然 分 布 情 况 下 ， 一 
致 收敛 算法 要 求 的 样本 过 大 ， 在 现实 中 不 可 能 每 次 都 有 足够 的 样本 来 满足 这 种 保证 。 第 
二 ， 构 造 PAC 或 者 不 一 致 可 学 习 来 获得 关于 4 到 2 的 所 有 函数 构成 的 类 一 致 收敛 也 不 是 太 
难 的 事情 。 具 体 来 说 ， 考 虑 一 个 可 计算 的 域 Tt， 一 个 有 限 的 标签 集 y》 和 一 个 从 到 了 的 假设 
也 数 类 HK。 我 们 可 以 使 用 以 下 技巧 ， 设 计 关于 到 站 的 所 有 分 类 器 构成 的 类 XH 的 任何 不 一 致 
等 习 副 来 实现 一 致 收敛 。 技 巧 如 下 : 在 一 个 接收 的 训练 集 上 ， 我 们 首先 运行 不 一 致 学 习 





器 ， 学 到 预测 器 真实 风险 的 一 个 界 ， 如 果 界 足够 小 ， 我 们 已 经 达到 目的 ; 否则 ， 我 们 重新 
使 用 Memorize 算法 。 这 个 简单 的 修改 将 使 得 我 们 的 算法 对 于 七 到 的 所 有 了 盯 数 一 致 收敛 。 
由 于 让 任何 算法 一 致 收敛 是 很 容易 的 事情 ， 就 没有 必要 仅 从 一 致 收敛 出 发 来 确定 侦 好 一 种 
算法 ， 而 不 是 另 一 种 算法 。 


重 提 “没有 免费 的 午餐 ”理论 

回想 第 5 章 5. 1 节 “ 没 有 免费 的 午餐 ”理论 ， 它 是 说 没有 算法 能 够 在 无 限 域 上 学 习 所 
有 分 类 器 构成 的 类 。 相 比较 而 言 ， 本 章 我 们 看 到 Memorize 算法 在 无 限 域 上 的 所 有 分 类 需 
构成 的 类 是 一 致 收敛 的 。 要 理解 这 两 个 说 法 是 没有 矛盾 的 ， 我 们 首先 回想 下 “没有 免费 的 
午餐 ”理论 的 标准 表述 。 

令 X 表 示 可 计算 的 无 限 域 ，y 王 { 士 1)}， “没有 免费 的 午餐 ”理论 如 下 : 对 于 任何 算法 
A 和 一 个 训练 样本 数量 2， 存 在 一 个 分 布 圭 和 一 个 图 数 h XY, WR A 只 是 获得 m 个 
独立 同 分布 样 本 其 中 的 一 个 ， 对 应 的 标签 为 AR” ， 那 么 A 很 可 能 返回 一 个 有 大 的 误差 的 分 
类 器 。 

Memorize 的 一 致 收敛 性 如 下 : 对 于 任何 的 分 布 寺 和 标签 图 数 h :二 一 7， 存 在 一 个 训 
练 集 m( 依 赖 于 分 布 和 有 h* ) 使 得 Memorize 算法 至 少 需要 m 个 样本 来 获得 较 小 的 误差 。 


7.6 小 绪 

我 们 引入 了 不 一 致 可 学 习作 为 PAC 可 学 习 的 松弛 ， 一 致 收敛 性 作为 不 一 致 可 学 习 的 
松弛 。 这 就 意味 着 ， 在 一 些 较 弱 的 可 学 习 概 念 里 ， 即 使 VC 维 是 无 穷 ， 也 是 可 以 学 习 的 。 
我 们 讨论 了 不 同 可 学 习 定 义 的 用 途 。 

对 于 可 以 计算 的 假设 类 ， 我 们 应 用 最 小 描述 长 度 原理 ,根据 奥 卡 姆 剃刀 原理 ， 拥 有 和 较 
短 的 描述 长 度 的 假设 更 受 偶 受 。 一 个 有 意思 的 假设 类 是 ， 所 有 的 预测 需 都 可 以 用 C++ (或 
者 其 他 任何 一 种 编程 语言 ) 来 执行 ， 我 们 可 以 通过 最 小 描述 长 度 原理 来 实现 不 一 致 学 习 。 

有 争议 的 是 ， 所 有 的 预测 器 (可 以 用 C++ 来 执行 ) 构 成 的 类 是 一 个 强大 的 类 ， 这 个 类 
中 包含 所 有 我 们 期 望 学 习 得 到 的 东西 。 这 种 学 习 能 力 让 人 印象 深刻 ， 表 面 上 看 ， 这 一 章 应 
当 是 本 书 的 最 后 一 章 。 事 实 并 非 如 此 ， 原 因 是 学 习 的 计算 性 : 即 应 用 学 习 规 则 所 需 的 运行 
时 间 。 例 如 ， 为 了 执行 最 小 描述 长 度 算法 相关 的 C++ 程序 ， 我 们 需要 穷尽 搜索 所 有 的 
C++ 程序 ， 这 将 永远 也 达 不 到 。 即 使 是 执行 经 验 风险 最 小 化 原则 相关 的 所 有 最 小 描述 长 
BEN) C++ 程序 至 多 1000 个 比特 ， 也 需要 穷尽 搜索 2”” 个 假设 。 但 是 学 习 这 个 类 的 样本 复 


Ree LIK ag OOO oes) 运行 时 间 达 2 。 这 是 一 个 很 大 的 数 ， 比 可 见 的 全 宇宙 原 


子 数量 都 大 。 在 下 一 章 中 ,我 们 将 正式 定义 学 习 复 杂 度 。 本 书 的 第 二 部 分 将 研究 假设 类 ， 
使 得 经 验 风险 最 小 和 结构 风险 最 小 化 原理 能 够 高 效 地 执行 。 


7. 7 文献 评注 


我 们 定义 不 一 致 可 学 习 与 奥 卡 姆 弟 刀 算法 相关 (Blumer，Ehrenfeucht，Haussler 和 
Warmuth，1987)。 结 构 风 险 最 小 化 的 概念 起 源 于 Vapnik & Chervonenkis(1974), Vap- 
nik(1995)， 最 小 描述 长 度 概 念 源 于 Rissanen(1978) Rissanen(1983), ， 结 构 风 险 最 小 化 和 
最 小 摘 述 长 度 的 关系 由 Vapnik(1995) 探 讨 。 这 些 概 念 与 正则 项 密切 相关 (Tikhonov 1943), 
我 们 在 本 书 的 第 二 部 分 对 正则 项 展开 讨论 。 





一 至 收敛 的 概率 可 以 追溯 到 Fisher(1922), 我 们 表述 的 一 致 收敛 性 体 循 Steinwart 和 


Christmann(2008), ， 他 们 也 发 展 了 “没有 免费 午餐 ”理论 。 
7.8 练习 


qn | 


Fak 


hee 


7.4 


hS 


ME BH Xt FE (a A RH AERE a d: H—> (0, 1}*, HAW VC 维 至 多 是 

2sup{|d(h)| :hEX}，X 的 一 个 预测 器 的 最 大 描述 长 度 。 其 至 ， 如 果 d 是 一 个 无 前 

级 描述 ， 那 么 VCdim(H)<sup{ |d(h)| :hEX)。 

AH= (h, :nEN} 表 示 一 个 无 限 可 计算 的 二 类 分 类 器 的 假设 类 。 证 明 不 可 能 对 允 的 假 

设 类 赋予 权重 使 得 : 

1) 允 能 够 使 用 这 些 权重 进行 不 一 致 地 学 习 。 即 ， 权 重 函 数 w H>, 应 该 满足 条 
件 Doh <1. 


hEH 
2) 权重 是 单调 不 下 降 的 。 即 ， 如 果 i<j, ABA wlhi<wlh;). 
1) 考虑 一 个 假设 类 好 二 Ui Hr, HFEA NEN, Hn 是 有 限 的 。 找 到 一 个 权重 函数 
w:3f->[0，1] 使 得 > oh) 过 1， 则 对 于 所 有 的 EH， wh) h n(h)=minin:he 
hEH 


Hn 上 和 | Hach) | 决定 。 


* 2) 定义 一 个 权重 函数 w， 当 所 有 的 n，H 是 可 计算 的 (可 能 是 无 限 的 ) 。 


令 3 表示 假设 类 。 对 任 -一 hE，| 有 | 表示 的 描述 长 度 (根据 一 些 固定 的 描述 语言 )。 
考虑 MDL 的 最 小 描述 长 度 学 习 原 理 ， 在 这 个 算法 里 返回 : 


hs € argmin| Ls(h) Å AEREN | 
hen 2m 


这 里 S 表示 样本 数量 xm， 对 于 任 一 BOO, SHe={hEH: |h|<B}, 定义 
ha = argent eh 
证 明 : Lp (hs) 一 Lp (hg ) 是 关于 B 的 一 个 界 ， 牌 信和 参数 $， 训 练 样本 集 的 数量 m. 
注意 : 这 样 的 界 在 历史 上 被 称 为 神 论 不 等 式 : 我 们 期 望 估 计 参 考分 类 器 (或 者 神 论 ) 
h 是 否 足 够 好 。 
在 这 个 问题 中 我 们 期 望 揭示 不 一 致 可 学 习 的 “没有 免费 的 午餐 ”的 一 个 结果 。 即 在 
无 限 域 上 上 ， 即 使 是 在 松弛 的 不 一 致 变化 可 学 习 ， 也 不 是 所 有 冰 数 构成 的 类 是 可 学 
习 的 。 
回想 算法 A， 一 个 假设 类 XK 的 不 一 臻 学习， 如果 存 在 一 个 函数 mY 00, 1)? XH>N 
使 得 对 于 每 一 个 s，6E (0, 1), HEH, WR mam" le, & h), PAMFIE—44} 
MD, FEAR S~D”， 下 式 成 立 的 概率 不 低 于 1—8, 
CS 过 (KR 十 
如 有 果 和 存在 这 样 一 个 算法 ， 那 么 我 们 说 XH 是 不 一 致 可 学 习 的 ，。 
1) 令 A 是 类 的 不 一 致 学 习 避 。 对 于 任 一 nN, MHA ={hECH:m™ (0.1, 0.1, 
h) 三 n}。 证 明 : 每 个 XW 有 一 个 有 限 的 VC 维 。 
2) 证 明 如 果 类 姑 是 不 一 致 可 学 习 的 ， 那 么 有 类 XH,， 使 得 和 二 U Hn, 对 于 任 一 个 
mEN, VCdim(H,) EA BRKI. | 
3) 令 刀 表示 一 个 类 散落 在 无 限 数据 集 上 ， 然 后 ， 对 于 类 的 序列 (XH em EN, X= UW， 
存在 n 使 得 VCdim(H,)==oo， 


7.6 


RTE 不 一 至 可 学 习 55 


提示 : 给 定 一 个 类 1 散落 在 一 些 无 限 的 数据 集 K 上 和 一 个 序列 类 (7 :2EN)， 每 
个 都 有 一 个 有 限 的 VC 维 ， 开 始 定义 一 个 子 集 K, 导 KK, ATMAN n, 
| K, | 这 VCdim(3t ) ， 并 且 对 于 nm, KNK, =Ø. MEA: K, 的 挑选 
一 个 函数 f,:K,—>{0. 1}. EFRA hEHER K, 上 遵循 f,。 最 后 ， 通 过 连接 这 
Æ fa RL F:X>{0, 1}, EA fEH\ UM). 

4) 构建 一 个 从 L0，1j 到 (0，1) 的 函数 类 Wi ， 这 是 不 一 致 可 学 习 的 ， 但 不 是 PAC 可 
学 习 的 。 

5) 构建 一 个 从 [0，1j 到 {0，1} 的 函数 类 XK， 这 不 是 不 一 致 可 学 习 的 。 

在 这 个 问题 中 ， 我 们 期 望 揭示 Memorize 算法 对 于 任 一 个 定义 在 任意 可 计算 域 上 函数 

类 是 一 致 可 学 习 的 。 令 表示 一 个 可 计算 的 域 ， 并且 D 是 的 概率 分 布 。 

D 令 {zi:iE€ NN} 表示 元 素 率 的 一 个 枚 举 对 象 ， 使 得 对 于 所 有 的 i<j, DUG 
D({xz;})， 证 明 ， 

lim >, (Dizxi})=0 


2) 给 定 任 一 e>0. 证明 存 在 sp 二 0 使 得 
Diz E€ #:DUzx}) Sep}) <e 
3) 证 明 对 于 任 一 y>0, WR n 使 得 对 于 所 有 的 i 二 n，D({z;})) 二 wn， 那 么 对 于 任 一 
MEN: FAAL» 
Pl Jri (DUL >q Hri ES] ne” 


4) 推断 ， 如 果 是 可 计算 的 ， 那 么 对 于 的 任 一 个 概率 分 布 D， 存 在 一 个 函数 
mp : (0， IX 0, 1)—N, 使 得 对 于 任 一 e, o-0, gy m>mp Ce; ô), HRA 
P [Dimne S >e]<é 


S~D" 
5) 证 明 Memorize 算法 在 可 计算 的 域 上 ， 对 于 所 有 二 值 函 数 构成 的 类 是 一 致 收敛 学 
习 算 法 。 
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学 习 的 运行 时 间 





到 目前 为 止 ， 本 书 从 统计 的 视角 研究 了 学 习 ， 即 学 习 需 要 多 少 样本 ; 换 句 话说 ， 我 们 
关注 学 习 需 要 的 信息 量 。 但 是 如 果 是 自动 学 习 ， 任务 的 复杂 程度 主要 由 计算 资源 决定 ， 即 
执行 任务 时 需要 多 少 计算 。 一 旦 学 习 者 有 一 个 充分 的 训练 样本 ， 花 费 一 些 计 算 量 就 可 以 从 
中 提取 假设 或 者 对 给 定 的 测试 样 例 加 标注 。 这 些 计算 资源 对 任何 一 个 机 器 学 习 的 应 用 都 是 
至 关 重 要 的 ， 我 们 将 之 分 成 两 类 ， 一 类 是 样本 复杂 度 ， 一 类 是 计算 复杂 度 。 在 本 章 ， 我 们 
将 转 而 关注 机 器 学 习 的 计算 复杂 度 。 

机 器 学 习 的 复杂 度 应 该 在 更 一 般 的 通用 算法 的 层面 上 考虑 。 这 个 领域 已 经 有 了 大 量 的 
研究 ， 例 如 Sipser(2006)。 接 下 来 的 介绍 性 说 明 总 结 了 这 套 通 用 理论 的 基本 理念 ， 这 也 是 
和 我 们 的 讨论 最 相关 的 内 容 。 

一 个 算法 的 实际 运行 时 间 ( 以 秒 为 衡量 单位 ) 取 决 于 具体 实现 的 机 器 (例如 ， 一 个 机 需 
CPU 的 时 钟 速度 ) 。 为 了 避免 对 具体 机 器 的 依赖 ， 一 般 讨 论 的 是 渐 近 意义 下 的 算法 运行 时 
间 。 例 如 ， 归 并 排序 算法 的 计算 复杂 度 为 O(nlogn)。 这 意味 着 ,在 任意 机 器 上 实现 这 个 
算法 ， 都 可 以 满足 可 接受 的 抽象 计算 模型 的 要 求 ， 同 时 其 实际 运行 时 间 满 足 如 下 条 件 : 存 
在 一 个 依赖 于 实际 机 器 的 常数 c 和 7zo， 使 得 对 于 任意 的 n>n, X n PCR HEF AY SE he 
行 时 间 至 多 为 cnlogn。 通 常用 可 行 或 者 计算 有 效 性 来 指称 复杂 度 为 O(p(n))( 其 中 马 为 多 
项 式 ) 的 算法 。 注 意 到 这 类 讨论 取决 于 对 具体 应 用 的 问题 所 定义 的 输入 规模 n。 正 如 一 般 的 
讨论 计算 复杂 度 的 文献 提 到 的 ， 纯 算法 领域 中 的 输入 规模 有 清晰 的 定义 : 算法 得 到 一 个 输 
入 ， 也 就 是 一 个 等 待 排序 的 列表 ， 或 者 一 些 等 待 计算 的 代数 操作 ， 这 些 都 有 良好 的 规模 定 
义 ( 也 就 是 能 用 比特 衡量 其 表现 形式 的 规模 )。 但 是 对 于 机 器 学 习 的 任务 而 言 ， 输 入 规模 的 
记号 有 些 模 糊 ， 因 为 一 个 机 器 学 习 算法 则 在 提取 数据 集 的 模式 ， 通 常 只 能 得 到 数据 集 的 随 
机 代表 。 

我 们 从 这 个 问题 和 定义 机 器 学 习 的 算法 复杂 度 人 手 。 我 们 也 为 水 平 较 高 的 学 生 提供 了 
一 个 详细 的 规范 定义 。 然 后 转向 实现 ERM 规则 的 计算 复杂 度 。 我 们 首先 给 出 了 一 些 使 
ERM 规则 能 够 保持 计算 有 效 性 的 假设 集 ， 随 之 考虑 一 些 ERM 计算 困难 的 案例 ， 尽 管 这 
些 案例 实际 上 是 可 以 有 效 学 习 的 。 接 下 来 说 明 ，ERM 实现 的 困难 并 不 意味 学 习 上 的 困难 。 
最 后 ， 我 们 简短 地 论证 了 如 何 展示 给 定 学 习 任 务 的 困难 度 ， 即 表明 没有 学 习 算 法 能 够 高 效 
地 解决 它 。 


8. 1 机 器 学 习 的 计算 复杂 度 
试想 一 个 机 融 学 习 算法 : CEH TIRE Z, BEREH, WRAAE, MZP PRERA 
布 D 独 立 同 分 布地 抽取 的 训练 集 。 在 给 定 参 数 e，5 的 条 件 下 ,算法 输出 一 个 假设 hh， 它 至 
少 以 概率 1 一 6 RAL PSR: 
Ln (h) < minLp (h ) Te 
如 上 文 提 到 的 ,算法 的 实际 运行 的 时 间 取 决 于 具体 的 机 器 。 为 了 得 到 独立 于 机 器 的 分 
析 ， 我 们 运用 标准 的 计算 复杂 性 理论 的 方法 。 首 先 ， 我 们 依赖 于 一 个 抽象 概念 上 的 机 器 ， 





如 图 灵机 (或 实际 机 器 上 的 图 灵机 (Blum，Shub 和 Smale，1989))。 其 次 ， 我们 从 渐 近 的 
意义 分 析 运 行 时 间 ， 而 包 略 常量 因子 ;因此 ， 只 要 实现 了 抽象 机 需 ， 具 体 的 机 需 并 不 重 
要 。 通常， 渐 近 是 相对 于 算法 的 输入 规模 而 言 的 。 例 如 ， 在 之 前 提 到 的 归并 排序 算法 ， 运 
行 时 间 是 等 待 排序 的 元 素 个 数 的 因数 。 

从 学 习 算 法 的 角度 来 讲 ,， “输入 规模 ”并 没有 明确 的 定义 。 有 人 也 许 把 算法 所 接收 的 
训练 集 的 规模 定义 为 输入 规模 ， 但 这 可 能 毫 无 意义 。 如 果 我 们 将 大 量 样本 输入 算法 ， 远 远 
超过 问题 的 样本 复杂 度 ， 算 法 可 能 只 会 忽略 多 余 的 样本 。 因 此 ， 训 练 集 的 增 大 并 不 意味 着 
学 习 问 题 变 得 更 难 ， 所 以 用 于 学 习 问 题 的 运行 时 间 不 应 该 因为 训练 集 的 规模 增 大 而 增加 。 
同 理 ， 可 以 将 运行 时 间作 为 问题 的 参数 的 函数 ， 包 括 : 目标 的 精确 度 ， 该 精确 度 的 置信 
度 ， 域 的 维度 以 及 与 算法 输出 进行 比较 的 假设 集 的 复杂 度 度 量 。 

为 了 阐述 这 个 问题 ， 以 一 个 学 习 轴 对 称 和 矩形 的 学 习 算 法 为 例 。 给 定 具 体 的 e，6 和 实 
例 空间 的 具体 维 数 ， 从 而 得 到 具体 的 轴 对 称 和 矩形 的 学 习 任 务 。 我 们 可 以 固定 s，9， 使 维 数 
从 d= 二 2，3，4,… 变 化 ， 从 而 定义 一 连 串 的 “学 习 和 矩形 ”的 问题 。 我 们 也 可 以 固定 4， 6， 


使 目标 精确 度 从 e 一 地 ， 亏 ，… 变 化 。 当 然 也 可 以 选取 其 他 的 问题 序列 。 一 旦 一 个 序列 确 


定 ， 就 分 析 运 行 时 间 关 于 这 个 序列 的 变量 的 渐进 滑 数 。 

在 引入 正式 的 定义 之 前 ， 还 有 一 个 细节 需要 讨论 。 在 前 面 的 基础 上 ， 学 习 理 论 可 以 通 
过 将 计算 的 负担 转 怒 到 输出 假设 集 上 进行 “欺骗 "。 比 如 ,算法 可 以 简单 地 将 输出 假设 集 
定义 为 存储 了 训练 集 的 水 数 ， 从 而 每 当 接 受 一 个 测试 样本 x， 算法 在 训练 集 上 执行 ERM 
算法 并 且 用 之 于 x。 注意 在 这 种 情况 下 ， 算 法 有 一 个 固定 的 输出 (也 就 是 我 们 刚才 描述 的 
中 数 ) 并 且 可 以 在 常数 时 间 内 运行 完毕 。 但 是 ， 学 习 依 旧 是 困难 的 一 一 现在 难处 在 于 用 输 
出 的 分 类 大 去 得 到 标签 的 预测 。 为 了 防止 这 种 “欺骗 ”， 我 们 需要 规定 用 学 习 算 法 的 输出 ， 
来 为 一 些 新 的 样本 做 标签 预测 所 花费 的 时 间 不 应 该 超过 学 习 ( 也 就 是 从 训练 样 例 中 计算 得 
到 输出 分 类 需 ) 的 运行 时 间 。 高 水 平 的 读者 会 在 下 一 小 节 找 到 计算 复杂 度 的 正式 定义 。 


正式 的 定义 

接 下 来 的 定义 基于 在 底层 抽象 机 器 上 的 记号 ， 这 些 记 号 可 以 用 于 图 灵机 或 者 基于 实际 
机 天 上 的 网 灵机 。 我 们 用 算法 实施 的 操作 数量 来 衡量 其 计算 复杂 度 ， 前 提 是 : 对 不 同 的 底 
层 抽 象 机 器 的 实现 机 器 都 存在 常数 <， 使 得 这 些 操作 都 可 以 在 c 秒 钟 完成 。 

定义 8. 1( 机 器 学 习 算 法 的 计算 复杂 度 ) 我 们 分 两 步 定 义 机 器 学 习 算 法 的 复杂 度 。 首 
先 对 一 个 固定 学 习 问 题 ( 由 三 元 组 (ZE， 戏 ，2) 一 一 域 集 、 假 设 集 和 损失 函数 决定 ) 定 义 计算 
复杂 度 。 第 二 步 ， 我 们 考虑 一 系列 相似 任务 的 复杂 度 的 变化 情况 。 


1. 考虑 函数 f: (0, LPN, 学习 任务 (Z， H, O, FIREA RAE OCP 时 间 内 
是 可 学 习 的 ， 如 果 存 在 常数 <， 使 得 对 任意 在 Z 上 的 概率 分 布 D， 给 定 输入 e，5E (0，1)， 
当 A 从 DD 中 独立 同 分 布地 获取 样本 后 ， 

© A 在 执行 了 至 多 cf(e， 8) 操作 后 终 目 ; 

o 记 4 的 输出 为 ha ， 用 它 对 新 的 样本 进行 标注 的 时 候 至 多 需要 cfle, DE; 

o A 的 输出 是 概率 意义 上 的 精确 ; 也 就 是 说 ， 在 .4 接收 的 样本 集 上 ， 至 少 以 概率 1 一 8 

使 得 Lp (ha) 寺 minyex Lp (h') +e, 

2. 考虑 一 系列 的 学 习 问 题 (Z,，H,，4,) 守 1! ， 其 中 间 题 n 由 域 集 Z,,、 假 设 集 XH,、 损 失 

RRE 定义 。A 表 示 解 决 这 一 系列 机 器 学 习 问 题 的 算法 。 给 定 函 数 g:NX O, 1)2—>N, R 





们 认为 4 的 运行 时 间 是 O(g)， 如 果 对 任意 的 n，A 能 够 在 OC(f,) 时 间 内 解决 问题 (Z,，X,， 
én), HP f,(0，1)* 一 NN 定义 为 fi(e, gl, &， 

我 们 称 A 学 习 有 效 ， 如 果 对 于 序列 (Z,，H,， 好 )， 它 的 运行 时 间 是 OCp(n, 1/e, 
1/6))， 其 中 p EZMA. 

从 定义 中 可 以 看 到 ， 一 个 通用 学 习 问 题 能 不 能 高 效 地 解决 ， 取 决 于 它 是 不 是 能 够 分 解 
成 为 特定 的 学 习 问 题 序列 。 例 如 ， 考 虑 学 习 有 限 假 设 集 的 问题 。 在 前 面 的 草 节 中 ， 训 练 样 
本 规模 my (e, A 二 log( 1H| /6)/e 保证 了 ERM 规则 是 (e，6)- 可 学 习 的 。 假 设 在 一 个 样本 
上 验证 一 个 假设 占用 常数 时 间 ， 那 么 在 O( | 天 | my Ce，6)) 时 间 对 允 的 穷 举 来 实现 ERM 规 
则 是 可 行 的 。 对 任意 固定 有 限 的 丸 ， 穷 举 算法 花费 一 个 多 项 式 量 级 的 时 间 。 更 进一步 ， 如 
果 我 们 定义 |X, | =n 的 问题 序列 ， 那 么 遍历 搜索 也 会 是 高 效 的 。 但是， 如 果 我 们 定义 
1W, | =2" 的 问题 序列 ， 样 本 复杂 度 仍然 是 关于 n 的 多 项 式 , 但 是 遍历 算法 计算 复杂 度 却 
是 随 n 明 几何 级 数 增长 (因此 认为 是 低 效 的 )， 


8.2 ”ERM 规则 的 实现 
YE (RI 2H, ERM, 规则 是 最 自然 的 学 习 样 式 。 此 外 ， 对 可 学 习 的 二 分 类 问题 ， 
ERM 规则 均 行 之 有 效 。 本 节 我 们 在 几 个 假设 集 上 讨论 实现 ERM 规则 的 计算 复杂 度 
YE Z, BEREH, WARRE, HMA ERM,, 规则 如 下 定义 : 
在 有 限 输 入 样本 集 SEZ" 上 ,输出 EN 满 足 经 验 风 险 的 最 小 化 : 
Lethy = rar e(h,z) 


ZES 


这 节 主 要 研究 在 几 个 学 习 任 务 的 样本 集 上 ERM 规则 的 运行 时 间 。 


8.2.1 有 限 集 


将 假设 集 限制 在 有 限 集 上 是 一 个 合理 的 轻微 限制 。 例 如 ， 姑 可 能 是 所 有 用 C++ 程序 在 
至 多 10 000 比特 编码 下 实现 的 预测 怖 的 集合 。 其 他 有 用 的 有 限 集 是 可 以 用 有 限 参 数 表 征 的 
amg 每 个 参数 的 表现 形式 都 可 以 用 有 限 比特 来 完成 ， 例 如 RR 空间 中 轴 对 称 和 矩形 的 坐标 

， 这 些 限定 矩形 的 参数 在 限制 精度 下 是 可 以 具体 化 的 。 

“从 前 面 的 章节 我 们 知道 ， 学 习 有 限 集 的 机 需 学 习 问 题 中 ， 抽 样 复杂 度 有 一 个 上 界 : 
Myle, ©) =c log(c|H|/H/e, HP c=1 的 情况 是 可 实现 的 ， 而 c==2 的 情况 是 不 可 实现 
的 。 因 此 抽样 复杂 度 轻 度 依 赖 于 允 的 规模 。 在 前 面 提 到 的 C++ 程序 中 ,假设 集 元 素 有 
2”%% 个 ， 但 是 抽样 复杂 度 仅 为 c(10 000 十 log(cy/6) ) /se 。 

在 有 限 假 设 集 上 实现 ERM 的 一 个 直接 方式 就 是 实施 遍历 。 也 就 是 说 ， 对 每 一 个 假设 
hEX， 我 们 计算 一 个 经 验 风 险 Ls(h)， 然 后 返回 一 个 使 经 验 风 险 最 小 的 假设 。 假 定 在 单个 
样本 上 评估 Ll(h，z) 花 费 一 个 常数 时 间 上 有 则 遍历 花费 时 间 为 k1XKI1m， 其 中 m 是 训练 集 的 
HWER. WRO m 代表 抽样 复杂 度 的 上 界 ， 那 么 运行 时 间 即 为 &| Hc log(c|H| /8)/e。 

运行 时 间 随 假设 集 的 规模 大 小 线性 增长 ， 这 使 得 遍历 的 方法 在 大 规模 集合 上 变 得 低 效 
(不 现实 )。 我 们 将 序列 问题 正式 定义 为 (Z,，H,，4,)>! HP log |N | =n, IBA aw K 
算法 需要 指数 运行 时 间 。 在 C++ FEFFE P, WRH, 是 在 C++ 程序 中 用 比特 代码 表 
示 的 咀 数 集 ， 则 运行 时 间 随 盖 指数 增长 ， 这 意味 着 遍历 在 实际 运用 是 不 现实 的 。 事 实 上 ， 
这 是 我 们 为 什么 处 理 其 他 假设 集 ( 比 如 线性 预测 器 ) 的 原因 ， 我 们 将 在 接 下 来 的 章节 关注 这 
些 假设 集 ， 而 不 仅仅 是 有 限 假设 集 。 
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重要 的 是 ， 要 认识 到 一 种 算法 (比如 遍历 ) 的 低 效 并 不 意味 没有 高 效 的 ERM 实现 方 
式 。 事 实 上 ， 我们 将 会 给 出 ERM 能 够 高 效 实施 的 范例 。 


8.2.2 ” 轴 对 称 矩 形 
今 H 是 高 维 空间 RY 里 矩形 的 坐标 ， 也 就 是 说 ， 


Ha = en a ee : V LQ; = bi? 
其 中 ， 
1 # Viz; E [asb; | 
Rising oe ey ka l 0 其 他 (8. 1) 


1. 可 高 效 学 习 的 可 行情 况 

试想 实现 ERM 的 现实 情况 。 我 们 给 定 训练 集 SHC, yids ots Xnr Ym) FELE— 
个 轴 对 称 的 矩形 hEXH,， 其 中 对 任意 i 均 有 h(x;) 二 y;。 我 们 的 目标 是 找到 一 个 零 训练 误差 
的 矩形 ， 也 就 是 说 ， 一 个 符合 S 上 所 有 标签 的 矩形 。 

我 们 将 证 明 这 在 OCmn) 时 间 内 可 行 。 事 实 上 ， 对 每 个 iE€lLnj, 令 a; 二 min{z;:(x，])ES) 
All b;=max{a;:(x, DES}, BZ. RINE a: Æ S 的 正 样 例 中 第 i 个 分 量 的 最 小 值 ， 而 b; 
为 最 大 值 。 验 证 这 样 的 矩形 是 零 训 练 误差 的 并 不 困难 ， 并 且 找 到 a; A; 的 运行 时 间 是 
Om)。 因 此 ， 总 运行 时 间 为 Olam), 

2. 不 可 高 效 学 习 的 未 知情 况 

在 未 知 的 情况 下 ， 我们 并 不 假定 某 些 假设 hh 完美 地 预测 了 所 有 训练 集 上 的 样本 的 标 
答 。 我 们 的 目标 是 找到 假设 h 来 最 小 化 y; 关 h(x;)。 对 于 很 多 普通 的 假设 集 ， 包 括 这 里 考 
虑 的 轴 对 称 和 矩阵 的 假设 集 ， 在 未 知情 况 下 实施 ERM 规则 是 NP 难 的 问题 (在 大 多 数 情 况 
下 ， 找 到 某 个 ERK 使 其 误差 不 大 于 常数 >00 乘 以 姑 中 经 验 风 险 最 小 化 的 误差 ， 甚 至 是 NP 
难 的 ) 。 也 就 是 说 ， 除 非 P 二 NP， 否 则 没有 以 m, n 为 参数 的 多 项 式 时 间 算 法 来 保证 找到 
一 个 ERM 假设 来 解决 这 些 问题 (Ben-David，Eiron &. Long 2003), 

男 一 方面 ， 值 得 注意 的 是 ， 如 果 我 们 固定 特定 的 假设 集 ， 比 如 给 定 维 数 ”的 轴 对 称 矩 
形 ， 那 么 存在 针对 这 类 假设 集 的 高 效 算 法 。 也 就 是 说 ， 成 功 的 未 知情 况 下 的 PAC 学 习 器 
能 够 在 关于 1/e, 1/8 的 多 项 式 时 间 内 运行 结束 (但 是 其 关于 维 数 n 的 依赖 却 不 是 多 项 
AH). 

为 了 论述 这 个 结论， 回忆 我 们 在 可 行情 况 下 ERM 规则 的 实现 : 为 了 确定 轴 对 称 和 矩形 
至 多 需要 2n SEP. Al, SRA m 的 训练 集 ， 我 们 在 每 个 规模 最 大 为 2n 的 子 集 上 建 
立 一 个 和 矩形。 然后 选择 其 中 最 小 化 训练 误差 的 矩形 。 这 个 流程 保证 可 以 找到 最 小 风险 假 
设 ， 并 且 运 行 时 间 是 mm”%”。 因 此 可 以 得 出 结论 如果 nn 是 固定 的 ， 运 行 时 间 就 是 关于 样 
本 规模 的 多 项 式 。 这 和 上 述 的 困难 性 的 结果 并 不 相悖 ， 因 为 可 以 定论 : 除非 一 NP， 否则 
没有 依赖 于 维 数 n 的 多 项 式 算 法 。 


8. 2.3 布尔 合 取 式 
从 二 {0，1})" 映射 到 站 二 {10，1} 的 布尔 合 取 式 可 以 表达 为 命题 形式 x, Ae A xz; 人 一 
Xj, = ay a 其 中 lis aama Lk 9 Jis ~ j: ELn|。 这 样 一 个 表达 式 定 义 的 函数 为 ， 
h 7 fh SS eS | AL Xi = a =g; =—0 
kz) = ' 
0 其 他 
SHERR, 1 上 所 有 可 能 的 布尔 合 取 式 集合 ， 其 规模 至 多 为 3 十 1( 因 为 在 合 取 式 





H, x 的 每 个 元 素 或 者 出 现 ， 或 者 结合 负 标 记 出 现 ， 或 者 根本 不 出 现 ， 并 且 我 们 有 全 部 负 
标记 公式 )。 因 此 ， 运 用 ERM 规则 学 习 7W 的 样本 复杂 度 至 多 为 dlog(3/6)/ 上 上。 

1. 可 高 效 学 习 的 可 行情 况 

接 下 来 ， 我们 将 论述 对 和 施用 ERM 规则 可 以 在 nw，m 的 多 项 式 时 间 内 实现 。 采 取 的 
方法 是 定义 包含 了 所 有 元 素 中 样本 不 相悖 的 合 取 式 。 令 vi e ont 表示 所 有 的 正 标 记 样 
本 S。 我 们 定义 一 串 假设 序列 ， 下 标 为 i 二 m”。 令 h 表示 所 有 可 能 元 素 的 合 取 式 ， 即 心 三 
n Non Arn Ne Nr, 人 一 Xx,。 注 意 到 ， 这 里 ho 对 二 中 的 样本 标记 为 0。hi 十 1 是 从 合 取 
A A; 中 删除 所 有 不 满足 vi4 1 的 元 素 。 这 个 算法 输出 假设 Anto EER ht 将 样本 S 中 所 有 
的 正 样本 标记 为 正 。 不 仅 如 此 ， 对 任意 的 im". h 是 将 vi，…*，wv; 等 标记 为 正 的 最 严 
格 的 合 取 式 。 由 于 我 们 考虑 的 学 习 任 务 在 可 实现 的 前 提 下 ， 那 么 存在 一 个 合 取 式 假 设 
FEH, HSS 中 所 有 样本 是 一 致 的 。 由 于 有 h,+ 是 将 正 样 本 标记 为 正 的 最 严格 的 合 取 式 ， 
任何 被 了 标记 为 0 的 样 例 将 会 被 ht 标记 为 0。 结 论 就 是 hh,+ (关于 5S 的 ) 训 练 误差 为 0， 从 
而 是 一 个 合理 的 ERM 假设。 注意 到 算法 运行 时 间 为 Onn). 

2. 不 可 高 效 学 习 的 未 知情 况 

同 轴 对 称 和 矩形 的 情况 一 样 ， 除 非 P=NP， 没 有 一 种 算法 ， 既 符合 运行 时 间 是 关于 m, 
n 的 多 项 式 ， 又 能 够 保证 找到 不 可 知情 况 下 的 布尔 合 取 式 备 选 集中 的 最 小 风险 假设 。 


8.2.4 学 习 三 项 析 取 范式 

接 下 来 我 们 论述 ， 即 使 是 在 可 实现 的 情况 中 ,布尔 合 取 式 的 轻微 泛 化 也 会 导致 ERM 
问题 难以 解决 。 取 一 个 三 项 析 取 范式 (3 项 DNF) 的 集合 。 实 例 空间 为 = 二 {0，1)"， 每 一 个 
假设 都 可 以 用 布尔 逻辑 式 表达 为 h(x) 二 Ai(x)V Ao (x) VAs (x), EE RES A; Cv) BBE TK 
合 取 式 ( 如 前 面 一 小 节 所 定义 的 )。 当 Ai(x) 或 者 A (x) 或 者 A;(x) 取 值 为 1，h(x) 的 输出 
是 1。 如 果 三 个 合 取 式 的 输出 都 是 0， 那 么 h(x) 二 0。 

令 Hspwe 表 示 3 项 DNF 表达 式 的 假设 集 ， 其 规模 最 多 为 3"。 因 此 ， 运 用 ERM 规则 学 
习 ytow 的 样本 复杂 度 至 多 为 3nlog(3/8)/e 

但 是 ， 从 计算 的 角度 来 看 ， 这 个 学 习 问 题 是 困难 的 。 已 经 证 明 ( 参 考 Pitt & Valiant 
1988, Kearns, Schapire & Sellie 1994): 除非 RP 二 NP， 否 则 不 存在 多 项 式 时 间 算 法 能 够 
“合适 ”地 学 习 3 项 DNF 序列 问题 一 一 其 中 第 n 个 问题 的 维 数 为 n。 我 们 说 “合适 ”， 就 暗示 
了 算法 必须 输出 一 个 形式 为 3 项 DNF 的 假设 。 具体 而 言 ， 因 为 ERMaye 输出 了 一 个 三 项 
DNF， 所 以 是 一 个 合适 的 学 习 句 ， 因 此 实现 上 是 困难 的 。 其 证 明 运 用 了 三 色 图 问题 的 约 简 。 
细 广 的 技术 在 习题 8.4 给 出 ， 同 时 也 可 以 参考 文献 (Kearns 和 Vazirani 1994, 1.4 节 ) 。 


8.3 高 效 学 习 ， 而 不 通过 合适 的 ERM 

在 前 面 的 小 节 我 们 提 到 ， 不 可 能 在 3 项 析 取 式 的 备 选集 Yj 上 高 效 地 使 用 ERM 规 
则 。 在 这 一 节 我 们 将 论证 这 个 集合 是 可 能 被 高 效 学 习 的 ， 但 需要 在 一 个 更 大 的 集合 上 使 用 
ERM 规则 。 

表示 独立 学 习 是 不 难 的 

接 下 来 我 们 论述 高 效 学 习 3 项 DNF 的 可 能 性 。 其 与 前 面 小 结 所 述 的 困难 性 结论 并 无 
矛盾 ， 因 为 我 们 在 这 里 允许 “表示 独立 的 ”学 习 。 也 就 是 说 ,我 们 允许 学 习 算法 输出 一 个 
并 不 是 3 项 DNF 的 假设 。 原 始 的 想法 是 用 一 个 更 大 的 可 以 方便 学 习 的 假设 集 取代 原先 的 3 
项 DNF 公式 的 假设 集 。 学 习 算 法 可 能 返回 一 个 并 不 属于 原来 的 假设 集 的 假设 ， 因 此 名 字 


#8% 学 习 的 运行 有 时间 6l 


叫做 “表示 独立 学 习 ”。 我 们 强调 ， 在 绝 大 多 数 的 情况 下 ， 得 到 一 个 泛 化 能 力 强 的 假设 才 


是 我 们 在 实践 中 真正 感 兴趣 的 。 
首先 注意 因为 V 分 布 在 人 之 中 ， 每 一 个 3 项 DNF 可 以 写成 : 
A; V A, V A; = A (u V v V w) 


uE A vEA, wE A; 
接 下 来 ， 我 们 定义 : p:(0, 1}"+{0, 1) gp nae ogre TTH u, v w, J 
存在 一 个 变量 表示 wu Vv V w 是 真 还 是 假 。 所 以 ， 每 个 (0，1) 上 的 3 项 DNF 对 应 
(0, D 上 的 合 取 式 。 更 进一步 ， 在 更 高 维度 的 空 sh de for tetra 
多 为 wlog(1/6)/e。 因 此 ， 该 方法 的 运行 时 间 是 关于 n 的 多 项 式 。 
其 直观 的 原理 如 下 : 我 们 从 一 个 难以 学 习 的 假设 集 开 始 ， 转 换 到 另 一 种 假设 集 更 大 但 
是 有 更 多 结构 信息 的 表示 上 ， 其 允许 一 个 更 高 效 的 ERM 遍历 算法 。 在 新 的 表示 上 ， 解 决 
这 个 ERM 问题 是 简单 的 。 


{0,1}" 上 的 3 项 DNF 





8.4 学习 的 难度 * 

我 们 刚刚 论证 了 ERM 上 计算 难以 实现 并 不 意味 着 XH 是 不 能 学 习 的 。 那 么 我 们 如 何 证 
明 一 个 学 习 问 题 是 计算 难 的 呢 ? 

一 个 途径 是 依赖 密码 学 的 假设 。 从 某 种 意义 上 来 说 ， 密 码 和 机 器 学 习 是 对 立 的 概念 。 
在 机 器 学 习 中 ， 我 们 试图 从 观测 样 例 中 发 现 背 后 的 某 些 规 律 ， 而 在 密码 学 中 ， 目 标 是 确保 
即使 有 人 获取 到 一 些 局 部 信息 ， 也 无 法 成 功 解密 。 从 高 度 直 观 的 角度 来 看 ， 对 某 些 系统 的 
安全 加 密 导 致 相应 的 任务 不 可 学 习 的 性 质 。 遗 憾 的 是 ， 目 前 没 人 能 证 明 密码 协议 是 不 可 破 
译 的 ， 甚 至 通常 假设 P=NP 也 不 足以 证 明 ( 虽 然 这 个 假设 已 经 被 证 明 对 于 一 般 的 密码 学 理 
论 是 必要 的 ) 。 通 常 证 明 密码 协议 安全 的 方法 是 通过 密码 学 假设 。 越 多 地 使 用 这 些 假 设 作 
为 密码 学 基础 ， 我 们 就 更 加 坚信 其 正确 性 (至 少 违背 它们 的 算法 很 难 找到 ) 。 

下 面 简 单 地 阐述 如 何 从 密码 学 假设 推导 机 器 学 习 难 度 的 基本 原理 。 很 多 加 密 系 统 依赖 
于 单 向 函数 的 假设 。 简 单 来 讲 ， 单 向 函数 是 映射 f: {0，1)" 一 {0，1)"( 更 加 严 间 地 来 讲 ， 
它 是 一 系列 对 应 于 每 个 维度 n 的 函数 )， 这 个 映射 计算 上 简单 ， 然 而 其 道 运 算 很 难 。 更 加 
正式 地 讲 ，f 能 够 在 关于 nn 的 多 项 式 时 间 内 计算 ,但 是 对 任意 随机 多 项 式 时 间 算 法 A 和 任 
意 的 多 项 式 p(。，。)， 





PAARD = f1 < 
其 中 概率 是 依据 {0，1}"” 上 的 均匀 分 布 和 算法 A 的 随机 性 选取 x 的 概率 。 


一 个 单 辐 函数 f 称 为 陷 门 单 向 函数 ， 如 果 对 一 些 多 项 式 p, IER n 存在 一 个 长 度 小 
于 或 者 等 于 轧 (z) 的 比特 串 s, ( 称 为 秘 钥 )， 使 得 存在 一 个 多 项 式 时 间 算 法 可 以 对 任意 的 
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AlxE{0. 1)", 输入 (f(x，5,)) 可 以 输出 x。 换 言 之 ， 尽 管 了 是 难以 逆 运 算 的 ， 一 旦 有 了 
它 的 秘 钥 ， 首 运算 就 是 可 行 的 。 这 些 函 数 就 可 以 用 它们 的 秘 钥 进行 表征 。 

ME, S F, 表示 {0，1)” 上 的 陷 门 函数 族 ， 其 元 素 能 在 多 项 式 时 间 内 计算 。 即 ， 我 们 
固定 一 个 算法 ， 给 定 一 个 秘 钥 ( 表 征 F, 中 一 个 函数 ) 和 一 个 输入 回 量 ， 其 在 多 项 式 时 间 内 
可 以 计算 出 对 应 于 秘 钥 和 输入 向 量 的 值 。 

取 学 习 其 道 函 数 的 族 ，7 二 { 广 ' :ffEF,)。 因 为 族 中 的 每 个 函数 可 以 通过 规模 关于 n 
的 多 项 式 的 秘 钥 s, 来 逆 运 算 ， 那么 族 和 也 可 以 通过 这 些 秘 钥 表征 且 其 规模 最 多 为 2*”， 
因此 其 样本 复杂 度 是 关于 的 多 项 式 。 我 们 断定 没有 高 效 的 学 习 器 可 以 学 习 这 样 的 备 选 
集 。 如 果 存 在 这 样 一 个 学 习 器 工 ， 那 么 在 {0，1}” 上 均匀 地 随机 抽取 多 项 式 规模 的 比特 串 ， 
在 其 上 计算 三 可 以 得 到 (CCxz)，x) 的 标记 样本 ， 这 些 样本 足以 使 学 习 融 得 到 一 个 满足 (e， 
8) 近似 的 广 !( 由 于 在 上 上 的 随机 分 布 )， 这 和 上 的 单 向 特性 相悖 。 

在 Kearns 和 Vazirani(1994) 的 书 中 第 6 章 对 此 有 更 细致 的 讨论 ， 并 给 出 了 具体 的 例 
子 。 运 用 约 简 的 方式 ， 该 书 还 证 明了 可 以 用 布尔 电路 计算 的 函数 族 并 不 能 高 效 学 习 ， 即 便 
是 在 可 实现 的 情况 下 。 


8. 5 小 结 


可 以 将 机 需 学 习 算法 的 运行 时 间 视 作 学 习 问 题 的 不 同 参数 的 函数 来 渐进 地 分 析 ， 人 参数 
包括 假设 集 的 规模 、 精 确 性 的 度量 方式 、 置 信和 度 的 度量 方式 、 域 集 的 规模 。 我 们 论证 了 
ERM 规则 能 够 高 效 实现 的 案例 ， 例 如 ， 在 可 实现 的 假设 下 ， 推 导 了 解决 布尔 合 取 式 和 轴 
对 称 矩 形 的 高 效 算 法 。 但 是 ， 在 不 可 知 的 情况 下 ， 对 这 些 假设 集 实 现 ERM 规则 是 NP 困 
难 的 。 回 到 统计 的 视角 ， 可 实现 和 不 可 知 的 情况 没有 差别 ( 即 ， 一 个 备 选 集 在 这 两 种 情况 
下 能 不 能 被 学 习 当 且 仅 当 其 VC 维 是 有 限 的 )。 相 反 如 我 们 所 见 ， 从 计算 的 视角 来 看 ， 这 
种 差别 却 相当 大 。 同 时 男 一 个 学 习 3 项 DNF 的 例子 说 明 ， 即 使 在 可 实现 的 前 提 下 ， 实 现 
ERM 规则 依然 是 困难 的 ,但 是 这 个 备 选集 可 以 被 其 他 的 算法 有 效 学 习 。 

在 一 些 目 然 的 假设 集 上 实现 ERM 规则 的 困难 性 驱使 一 些 代替 的 学 习 算 法 的 发 展 ， 我 
们 将 在 以 后 的 章节 讨论 这 些 学 习 算 法 。 


8.6 文献 评注 


Valiant(1984) 引 入 了 高 效 的 PAC 学 习 模 型 ， 限 定 了 算法 的 运行 时 间 是 关于 1/e, 1/8 
和 假设 集 的 表示 规模 的 多 项 式 。 细 致 的 讨论 和 详尽 的 参考 文献 要 点 参见 Kearns 和 Vazirani 
(1994), ` 


8.7 练习 


8.1 令 和 表示 直线 上 的 区 间 ( 相 当 于 1 ARRIERE), FEAR AOL OP. EEN 
ERM, 的 方式 ， 且 给 定 训练 集 规模 为 m, EIRE Omn). 
提示 : 采用 动态 规划 。 

8.2 令 和 ll，Kz，… 表 示 二 分 类 问题 的 假设 集 序列 。 假 设 存在 一 个 在 可 实现 情况 下 实现 
ERM 规则 的 学 习 算 法 ， 且 其 对 每 个 jt, 输出 的 假设 仅仅 取决 于 训练 集 上 O(n) 个 学 习 
样本 。 更 进一步 ， 假 定 输出 的 假设 能 在 O(n) 时 间 内 从 这 O(n) 个 样 例 中 得 到 ， 并 和 且 
每 个 假设 的 经 验 风 险 可 以 在 Ol(mn) 时 间 计 算得 到 。 例 如 ， 如 果 K, 是 R EXT RRB 
形 的 假设 集 ， 那 么 在 可 实现 的 情况 下 可 以 学 习 得 到 一 个 由 至 多 2n 个 样 例 定义 的 
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ERM 假设 。 证 明 在 这 种 情况 下 ， 对 Kw, 在 不 可 实现 的 情况 下 可 以 在 O(nmm””) 找 到 

ERM 假设 。 

8. 3 ”在 这 个 练习 中 ， 我们 展示 几 个 备 选集 ， 在 其 上 建立 ERM 分 类 器 是 计算 困难 的 。 首 
先 ， 我 们 引入 nn 维 半空 间 备 选集 HS ,， 样 本 集 为 + 一 R"。 这 个 备 选集 是 具有 如 下 形 
式 函 数 的 集合 : hs(x) 二 sign(《(w，X) 十 5)， 其 中 w, xeR', 并 且 《w， x) 是 内 积 ， 
bER,. EF 9 章 中 有 更 详尽 的 讨论 。 

1) 论述 在 备 选集 风 二 日 S, 上 实现 ERMy 的 线性 分 类 需 是 计算 难 的 。 更 加 精确 地 讲 ， 
我 们 考虑 随 着 维 数 n 线性 增长 的 问题 序列 ， 其 样 例 的 数量 m 是 n 的 常数 倍 。 
提示 : 可 以 通过 如 下 问题 的 约 简 来 证 明 其 难度 : 

RAFS: 给 定 线性 不 等 式 系统 Ax 二 六 ， 其 中 ACR, VER" LHAZGK, 
这 个 系统 包括 了 m 个 nn 元 线性 不 等 式 ，X 二 (XI1，*…，ZX,))， 找 到 其 含有 尽 可 能 多 
的 有 解 ( 称 这 样 的 子 系 统 为 可 行 的 ) 的 不 等 式 的 子 系 统 。 
已 经 证 明 最 大 FS 问题 是 NP WH (Sankaran 1993). 
论述 在 训练 集 SE (R"X {十 1， 一 1))”"， 任 何 学 习 ERM: 假设 的 算法 都 可 以 用 来 
解决 规模 为 m，n 的 最 大 FS 问题 。 
提示 : 定义 一 个 映射 变换 线性 不 等 式 的 nn 个 变量 到 R 标记 点 上 ， 另 一 个 映射 变 
换 朴 "的 矢量 到 半空 间 ， 使 得 向 量 ww 满足 不 等 式 g 当 且 仅 当 标记 点 对 应 的 g 值 是 
由 对 应 于 ww 的 半空 间 分 类 的 。 证 明 : 对 于 半空 间 的 经 验 风 险 最 小 化 的 问题 是 NP 
难 的 ( 即 ， 如 果 它 可 以 在 关于 样本 大 小 72 EKRA n 的 多 项 式 时 间 内 解决 ， 则 
每 一 个 NP 类 问题 可 以 在 多 项 式 时 间 内 解决 )。 

2) SA=R', HRR k 个 线性 半空 间 的 交点 。 在 这 个 练习 中 ， 我 们 希望 证 明 ERMy 
对 任意 & 之 3 是 计算 困难 的 。 精 确 来 讲 ， 考 虑 问题 序列 ， 其 中 A 之 3 RRA n 
性 增长 。 训 练 集 规模 m Blin 线性 增长 。 为 了 证 明 结 论 ， 考 虑 如 下 定义 的 图 的 &- 
着 色 问 题 : 

给 定 图 G 二 (VV，E)， 和 常数 k， 推 断 是 否 存 在 消 数 f:V 一 {1…k}， 使 得 对 任意 
的 (ws DEE, FWMA o). 
hk -着 色 问 题 对 任意 & 宇 3 是 NP 难 的 (Karp 1972). FRG BA k -着 色 问 题 到 
ERMy: : 即 证 明 如 果 有 一 个 算法 在 关于 有 ，n 和 采样 规模 mx 的 多 项 式 时 间 内 解 
决 ， 那 么 有 一 个 多 项 式 算法 可 以 解决 图 上 -着 色 问 题 。 
WER G=(V, E), 令 {w，…，w,}) 表 示 V 中 的 顶点 。 建 立 样 例 SCG ER X 
{+1})", HA m=|V|+/El, fa: 

第 一 ， 对 任意 v; EV， 建 立 负 标记 的 样 例 e,; 

第 二 ， 对 任意 边 (v;，wv)EE， 建 立正 标记 的 样 例 (e; 十 e;)/2。 

QD 证 明 如 果 存 在 hE 在 S(G) 是 零 训 练 误差 的 ， 那么 G 是 可 以 & -着 色 的 。 

QiEHA aR G 是 可 以 & -着 色 的 ， 那么 存在 hE 在 S(G) 是 零 训 练 误差 的 ， 

在 前 述 的 基础 上 ， 证 明 对 任意 的 三 3， 任意 的 ERMzw 是 NP 难 的 。 

8.4 在 此 练习 中 ， 我 们 表明 ， 解 决 ERM 的 难度 相当 于 合适 的 PAC 学 习 的 难度 。 回 想 一 
下 ， 我 们 称 算 法 “合适 ”意味 着 它 必 须 从 假设 类 输出 一 个 假设 。 形 式 化 这 种 说 法 ， 
我 们 首先 需要 以 下 定义 : 
定义 8.2 复杂 性 类 随机 多 项 式 (RP) 时 间 是 所 有 存在 概率 算法 ( 即 ， 算 法 运行 时 允许 
随机 翻转 硬币 ) 的 决策 问题 ( 即 ， 问 题 的 任何 实例 都 要 求 回答 是 或 者 否 ) 的 集合 ， 且 必 
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须 满 足 如 下 特性 : 
第 一 ， 对 任意 输入 实例 ， 算 法 运行 时 间 是 输入 规模 的 多 项 式 时 间 ; 
第 二 ， 如 果 正 确 的 回答 为 否 ， 算 法 返回 和 否 ; 
第 三， 如 果 正 确 的 回答 为 是 ， 算 法 以 概率 a 三 1/2 返回 是 ， 以 概率 1 一 a 返回 否 S，。 
明显 ，RP 类 包含 P 类 ，RP 类 包含 于 NP 类 。 但 是 并 不 清楚 三 者 中 间 是 不 是 存在 任 
何等 量 关 系 。 大 家 普遍 承认 的 是 NP 类 严格 大 于 RP 类 ， 即 NP 难 问题 没有 随机 多 项 
式 时 间 算 法 。 
证 明 如 果 一 个 假设 类 ZX 是 可 以 被 多 项 式 时 间 算 法 合适 PAC 学 习 的 ， 那 么 ERMy 问题 
是 RP 类 问题 。 特 别 地 ， 如 果 一 个 ERM, 问题 是 NP 难 的 (例如 上 一 个 题目 讨论 的 半 
i 空间 的 交点 )， 那 么 除非 NP 二 RP， 否 则 不 存在 X 的 多 项 式 时 间 算法 的 合适 的 PAC 学 
85 J Ai © 


O 定义 中 的 常数 1/2 可 以 被 (0，1) 中 的 任意 常数 代替 。 
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本 章 我 们 将 学 习 线 性 预测 ， 它 是 假设 类 中 最 重要 的 成 员 。 许 多 广泛 应 用 的 学 习 算法 都 
基于 线性 预测 ， 最 重要 的 原因 是 它 能 在 许多 情形 下 有 效 地 学 习 。 此 外 ， 线 性 预测 具有 直观 
性 ， 易 于 理解 ， 在 许多 天 然 的 学 习 问 题 中 对 数据 拟 合 恨 好 。 

我 们 将 介绍 一 些 属于 线性 预测 的 假设 类 : 半空 间 法 (halfspace) 、 线 性 回归 预测 、 逻 辑 
斯 诺 回 归 预 测 等 ， 同 时 也 介绍 相关 的 学 习 算法 : 线性 规划 、 半 空间 中 的 感知 器 算法 和 线性 
回归 中 的 最 小 均 方 算法 。 本 章 通过 经 验 风 险 最 小 化 方法 (ERM 方法 ) 研 究 线性 预测 。 同 时 ， 
在 接 下 来 的 几 章 ， 我 们 也 通过 男 外 的 范例 来 学 习 这 些 假设 类 。 

首先 ， 我 们 定义 仿 射 函数 类 : 

La = {hy:wE RbE R} 
其 中 ， 
wr; ) +6 


l 


Il 


Me 


hon (x) = (wx) +b = ( 
使 用 这 个 记号 将 很 方便 : 
La = {(xW(w,x) +b:w E RbE R) 
可 以 这 样 解读 ， Ls ERRER. FP aE eR BOOK w ER 和 06 了 参数 化 ， 并 以 回 量 x 作 
为 输入 ， 以 标量 (w，x) 十 b 作为 输出 。 
线性 预测 中 另 一 类 不 同 的 假设 类 是 由 Lz PRR O: 民 一 了 组 成 的 。 例 如 ， 在 二 分 类 
中 ， 我 们 将 $8 选取 为 符号 限 数 ， 在 回归 问题 中 站 二 恨 ，# a EEE RR 
将 偏 移 量 ee 中 将 更 为 方便 ， 只 需 在 w 内 加 入 一 维 并 将 xEX 对 应 加 入 全 为 1 
的 一 维 。 即 ， 令 w =b, ws wry s ws) ER H x =(1, Er Z y ty) ECR", 
从 而 
hin) = (wx) +6 = (Ww sy ) 

个 推论 是 使 用 类 似 的 变换 且 在 输入 回 量 中 加 入 为 1 at, RY 中 的 任何 一 个 仿 射 
ARATAKO IE ARAM. 因此 ， 当 这 种 表示 可 以 化 简 时 ， 我 们 将 忽略 偏 移 
量 ， 认 为 Lz 是 一 类 形式 为 h(x) 二 (w，x) 的 齐 次 线性 函数 。 

全 书 中 我 们 使 用 “线性 函数 ”代表 仿 射 图 数 和 ( 齐 次 ) 线 性 函数 。 
9.1 半空 间 

我 们 考虑 的 第 一 个 假设 类 是 半空 间 类 ， 它 为 二 分 类 而 设计 。 即 4 一 梧 ，J 王 { 一 1， 十 1)。 半 
空间 类 的 定义 如 下 : 

HS, = signe Ly = {x phsign(h,.,(x)) shy, E Lz} 

换言之 ， 每 一 个 HS, 半空 间 假设 均 被 wER 和 DER 参数 化 ， 当 输入 一 个 向 量 x 时 ， 假 设 
返回 一 个 标签 sign((w, x) +b), 

为 几何 化 的 阐述 这 类 假设 ， 我 们 可 以 选取 d= 的 情形 。 每 一 个 假设 形成 一 个 与 向 量 
w 垂直 的 超 平面 ， 并 且 与 纵 轴 相交 于 点 (0， 一 /wz). 那些 在 超 平面 上 方 的 ， 即 与 w 成 锐 
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角 的 样本 ， 被 标记 为 正 样本 ; 那些 在 超 平面 下 方 的 ， 即 与 w 成 钝 角 的 样本 ， 被 标记 为 负 
样本 。 





在 9.1.3 节 中 ,我 们 将 给 出 VCdim (HS) = 二 dd 十 1。 这 意味 着 只 要 样本 量 为 
a(S), RRT ERM 范式 学 习 半空 间 。 因 此 ， 我 们 现在 讨论 半空 间 
ERM 方法 。 

接 下 来 我 们 介绍 两 种 方法 寻找 可 行 的 ERM 半空 间 。 在 半空 间 的 概念 中 ， 可 行 被 认为 
是 “可 分 ”的 ， 因 为 使 用 超 平面 完全 区 分 正 负 样本 是 可 能 的 。 在 不 可 分 情形 (例如 未 知情 
况 ) 中 使 用 ERM 法 则 是 难于 计算 的 (Ben-David，Simon，2001)。 有 许多 方法 可 以 学 习 不 


可 分 数据 ， 最 流行 的 是 使 用 替代 损失 函数 (surrogate loss function), ， 即 不 必 使 用 0 一 1 损失 


最 小 化 经 验 风险 来 学 习 半 空间 ， 而 可 以 使 用 不 同 的 损失 函数 。 例 如 ， 我 们 将 在 9. 3 节 中 描 
述 逻 辑 斯 诺 回归 方法 ， 它 能 在 不 可 分 情形 中 有 效 执行 。 我 们 会 在 第 12 章 中 详细 学 习 蔡 代 


9. 1. 1 半空 间 类 线性 规划 
线性 规划 问题 可 以 表述 为 在 线性 不 等 式 约 束 下 最 大 化 线性 函数 ， 即 : 


max(u,w») 
we 


s. t. Aw > v 
其 中 wER 是 我 们 希望 求解 的 参数 向 量 ，A fim Xd ERE, vER", uc 为 向 量 。 线 
性 规划 能 被 有 效 地 求解 ”5 ， 此 外 ， 有 公开 的 线性 规划 求解 程序 。 

我 们 将 证 明 ， 可 分 情形 的 半空 间 ERM 问题 可 以 表述 成 线性 规划 问题 。 不 失 一 般 性 ， 
我 们 假定 为 齐 次 情形 。 令 S 二 {(x;，y;)) 呈 1 为 m 维 训练 集 。 因 为 我 们 假定 样本 可 分 ， 训 练 
集 上 的 ERM 预测 是 0 误差 的 。 即 ， 我 们 可 以 寻找 向 量 wER 满足 

sign((w,X;)) = ys Vi= lm 
同样 ， 我 们 可 以 找到 向 量 w 满足 
Vv > Oy Wt = Lm 
令 区 "满足 该 条 件 ( 因 为 我 们 假定 可 分 ， 因 此 它 一 定 存 在 )。 定 义 y=min(y;(w" , 


apa, 因此 ， 对 于 所 有 的 i， 我 们 有 


Yi(w, Xi) = jrw s) = l 


因此 我 们 可 以 证 明 存 在 向 量 满足 
yz xi) >l, Yim Ly (9.1) 


O BMEÆEm, d 的 多 项 式 时 间 内 ， 以 及 在 实数 的 表示 尺度 下 。 


68 ”第 二 部 分 从 理论 到 算法 


显然 ， 向 量 为 ERM 预测 。 
为 找到 向 量 满足 式 (9. 1) ， 我 们 可 以 依靠 线性 规划 求解 。 集 合 A Am Xd AER, E 
的 行 样本 乘 Vio By) As; = ize 其 中 Zij JE X; 的 7 阶 元 素 。 令 AC, “+, 1)€R’ 回 量 ， 
那么 式 (9. 1) 可 以 写成 
Aw >v 
线性 规划 形式 需要 最 大 化 目标 ,但 所 有 满足 该 约束 的 w 均 为 假设 输出 的 候选 ， 因 此 ， 
我 们 设 定 一 个 “虚拟 ”的 目标 , u=(0, =, OER’, 


9.1.2 半空 间 感知 兹 

另 一 个 ERM 法 则 的 计算 方法 是 感知 器 算法 (Rosenblatt，1958)， 感知 器 算法 是 迭代 
式 的 ， 它 构建 一 系列 的 向 量 w, wP, eR w 设置 为 0 E., ER t RER, R 
知 器 找到 被 w” 错 分 的 样本 i， 即 ， 该 样本 使 sign w”, x) Ay Be, AREA x; 
乘 比例 系数 y 加 入 向 量 ， 感 知 器 更 新 w?, Fw Sw t yx RITE E ERE E X T 
Aig yw, x) >0, H 

ylw x) = yi lw + yk = yw x + |x l? 
KE, RAAR EREHE SB i 个 样本 变 得 “更 加 正确 ”。 


感知 器 批 处 理 算法 
输入 : MAR (es Mids ots CXne Ym) 
初始 化 : wi? =(0, =, 0) 
循环 : t=1, 2, » 
tki Fis. t. yw, x90), AA 


wit) c w” + 95%; 
否则 
输出 w” 





下 面 定理 保证 在 可 分 情形 时 ， 该 算法 终止 时 所 有 样本 均 被 正确 分 类 。 

定理 9.1 RE CK, Mido s Xms mAT, A B 二 min{|wl: YiE€ [mj， 
ylw, x;)>l}, 同时 R=max|| x; | 。 那么 ， 感 知 器 算法 最 多 在 (RB)2: 次 迭代 终止 ， 且 终 
止 时 满足 ViEGl|7zz |]， ylw, E TE A 

证 明 根据 终止 条 件 的 定义 ， 感知 器 终止 时 所 有 样本 均 被 划分 ， 我 们 将 证 明 算 法 迭代 
次 数 工 满足 T 二 (RB)*， 这 意味 着 感知 器 最 多 运行 (RB)? 次 和 迭代。 

设 过 为 如 定义 下 最 小 的 向 量 。 即 对 所 有 的 ?1， 有 yvitw*, x, >1, FERPA Hit 
约束 的 向 量 中 ，z* 具有 最 小 范 数 。 


证 明 的 思想 是 在 了 次 选 代 后 ，uw"* wT RARE DAT, 


(T+1) 


w* wh) a fT 
[w* | lw] = RB (9. 2) 
根据 柯 西 - 施 瓦 茨 不 等 式 ， 式 (9. 2) 左 侧 最 大 为 1。 因 此 ， 式 (9. 2) 意 味 着 


V 工 z 
1 > Rp”? T < (RB) 
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我 们 需要 证 明 它 。 
为 说 明 式 (9. 2) 成 立 ， FETA SUE w, wT ST, BR, 在 第 一 步 迭 代 w = 
(0，…，0)， 有 (w*，w' ) 二 0。 在 第 t 步 迭代 ， 如 果 我 们 使 用 样本 (x;， yi) 蝎 新 ， 将 有 
(w* ow t= yw Y= Ww po” — w) 
= (Ww yx = y w” xX) Sl 


因此 ,在 工 次 迭代 之 后 ， ARTA 


(wr” wD) = Dw" pw) —(w*,w)) >T (9. 3) 
下 面 ， 我 们 找到 | w” | 的 上 界 。 对 每 步 迭 代 t. 我们 有 
lw = | w? +y xN? 
= | w” |? + 2y;(w ,x;) + yi EAK 
S Iw |? +R (9. 4) 


其 中 ， 最 后 的 不 等 式 是 因为 样本 1 是 使 yil w” ，X;) 三 0 而 必要 的 ， 且 x; 的 范 数 最 大 为 R。 
现在 ， 因 为 |w 上 ?= 二 0， 如 果 我 们 使 用 式 (9. NAHH T KER, KHA 


| wit) ||? < TR” =|| w TP |< VTR (9, 5) 
将 式 (9. 3) 代 入 式 (9.5) 中 ， 并 利用 上 |w* || =B, bain 
(wt) , w «> JE 
| w* w | > B VIR T © RB 

从 而 式 (9. 2) 成 立 ， 证 毕 。 ai 


评论 9. 1 感知 器 方法 简单 并 保证 收 剑 。 但 收敛 速率 取决 于 参数 B， 它 在 某 些 情况 下 
是 随 着 d 指数 爆炸 的 。 在 这 种 情况 ， 采 用 前 文 所 述 的 线性 规划 解决 ERM 问题 将 更 合适 。 
然而 ， 对 于 大 部 分 天 然 的 数据 集 ，B 将 不 会 太 大 ， 感 知 器 收敛 还 是 相当 快 的 。 


9. 1.3 半空 间 的 VC 维 

我 们 从 齐 次 情况 出 发 ， 来 完善 半空 间 VC 维 理论 。 

定理 9.2 FARES R 的 VC 维 是 d，。 

证 明 首先 我 们 考虑 向 量 集合 e:，…，es， 其 中 e; 的 第 i SCRA 1 其 余 元 素 为 零 。 
这 个 集合 被 半空 间 类 打 散 。 显 然 ， 对 于 yo os ya 中 每 一 个 标签 ， 给 定 w= 二 (yi，…， 


yACws, e)=y;: (Vi). 
MW, Sx, ts Xe A R 中 的 d 十 1 个 向 量 的 集合 。 那么 ， 一 定 有 非 全 部 为 零 的 实 


d+! 


Wears s dais ME D aix: =0, 4 I={i:a;>0} 8 J={j:a;<0}, I, J 不 全 是 空 的 。 
首先 我 们 假设 它们 均 非 空 ， 即 
D4 i = la; |x; 
现在 假定 下，…， xi 被 齐 次 类 打 散 . 那么 VAJE w 对 于 所 有 的 i€ET 满足 
Cw, x) >0, WIET Elw, x)<0, AmA 
0< 244 (Xi WY = (2a, Xi w) = (之 la;|x;.w) = > laz | tw <0 


这 是 个 矛盾 式 ， 最 后 ， 如 果 J 或 是 Days ZS 那么 上 式 的 右 侧 (或 堪 侧 ) 的 不 等 号 也 会 
AE 图 
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定理 9.3 非 齐 次 半空 间 R 的 VC 维 是 d 十 1。 


证 明 首先， 就 像 证 明定 理 9. 2 — FF, 容易 知道 向 量 集合 0，el，…，ev: 被 非 齐 次 半 
空间 类 打 散 。 然 后 ， 假 设 向 量 z ，…，xu4z 被 非 齐 次 半空 间 打 散 。 但 是 ,使 用 本 章 开 始 介 
绍 的 降 维 方 法 ，R1! 空 间 中 能 被 齐 次 半空 间 打 散 的 向 量 有 d 十 2 个 ， 这 与 定理 9.2 政 盾 。 © 


9.2 线性 回归 


线性 回归 是 常用 的 统计 工具 ， 用 来 建立 “解释 性 ”变量 与 观测 值 之 间 的 关系 。 从 机 如 
学 习 的 角度 说 明 ， 定 又 域 t+ 是 R 的 d 维 子 集 ， 标 签 集 ) 是 实数 集 。 我 们 可 以 试图 寻找 一 个 
线性 函数 hh:，Re 习 民 使 参数 之 间 的 关系 拟 合 最 好 (比如 ， 通 过 儿童 的 年 龄 与 出 生 重量 的 关系 
预测 体重 )。 图 9. 1 给 出 了 d=1 时 的 线性 回归 。 
线性 回归 假设 类 是 线性 函数 的 集合 : 
Hrg = Ly 
= {x h(w.x) +6: w E€ R',b E R} 
接 下 来 我 们 需 定义 回归 的 损失 函数 。 在 分 类 问 
题 中 损失 函数 的 定义 是 显而易见 的 ， 即 《4(h, Cx, 
y)) 表 明 h(x) 是 否 对 y 正确 分 类 。 在 回归 中 ， 如 果 
儿童 的 体重 是 3kg， 那 么 预测 为 3. 00001kg 或 4kg 
都 是 错 的 ， 但 我 们 显然 更 倾向 于 前 者 。 因 此 我 们 需 
要 定义 对 h(x) 与 y 之 间 差 异 的 惩罚 力度 。 一 
用 形式 为 平方 损失 函数 ， 即 
Elh, xyy)) = (A(x) — y)? 图 9.1 d=1 时 的 线性 回归 。 比 如 xz 轴 
对 应 该 惩罚 函数 ， 其 经 验 风险 函数 叫 均 方 误 SS OE SSE 
差 ， 即 





Lsth) = 29) (hw) yo 


在 下 面部 分 ， 我 们 将 看 到 如 何 使 用 平方 损失 执行 线性 回归 的 ERM 准则 。 当 然 ， 有 很 
多 其 他 的 损失 函数 可 以 使 用 ， 例 如 绝对 值 损失 函数 6(h,(x，y)) 二 1h(x) 一 y|。 使 用 绝对 
IEH R RRJ ERM 准则 可 以 采用 线性 规划 方法 ( 见 练习 9. 1)。 

需要 注意 的 是 线性 回归 不 是 二 分 类 问题 ， 我 们 不 能 使 用 VC 维 理论 分 析 其 样本 复杂 
性 。 一 个 可 行 的 办 法 是 使 用 离散 化 方法 ( 见 第 4 章 注 4. 1) 。 如 果 我 们 愿意 将 向 量 w 和 偏 移 
Eb 用 有 限 位 数 ( 比 如 64 位 的 浮 点 数 ) 表 示 ， 那 么 该 假设 类 将 为 有 限 的 ， 且 其 最 大 样本 量 
为 20°) 。 我 们 可 以 依靠 第 4 章 中 样本 复杂 度 确 界 分 析 假设 类 。 然 而 需要 注意 的 是 ， 为 应 
用 第 4 章 中 的 样本 复杂 度 定 界 方法 ， 损 失 函 数 也 需要 有 界 。 本 书 的 后 续 章 节 会 讨论 线性 回 
归 问 题 样本 复杂 度 的 更 严格 方法 。 


9.2.1 最 小 平方 


最 小 平方 算法 是 根据 平方 损失 来 求解 线性 回归 假设 类 的 ERM 问题 。 这 类 ERM 问题 
是 给 定 训练 集 S， 使 用 齐 次 的 La 来 找到 


argminL s (hu) = argmin 1) CC wi X;) — 9)" 
为 解决 这 一 问题 ， 我 们 计算 目标 函数 的 梯度 并 将 其 与 0 比较 。 即 ， 我 们 需求 解 


PIF 线性 预测 7] 


2S) (ws) —y).x = 0 
我 们 可 以 将 该 问题 重新 表述 为 Aw=b, HP 














A= eo x; x?) 且 b = > ek (9. 6) 
i=l i=] 
或 以 矩阵 的 形式 
$ 
A {= |ž x xX} x (9. 7) 
: yı 
b= Xi xX : (9. 8) 
: Yim 














如 果 A ay, IBA ERM 问题 的 解 为 
w = Ab 

在 A 不 可 逆 的 情形 ， 求 解 则 需要 线性 代数 的 一 些 标准 工具 ， 它 们 在 附录 C 中 给 出 。 
容易 证 明 ， 如 果 训 练 样本 不 是 充满 整个 R 空间 ， 那 么 A 将 是 不 可 逆 的 。 然 而 ， 我 们 总 能 
找到 系统 Aw=b WH. AA DEA 的 范围 内 。 事 实 上 ， 因 为 A 是 对 称 阵 ， 我 们 可 以 用 特 
征 值 分 解 来 表示 它 : A=SVDV", HP DÆI, V 是 标准 正 交 矩阵 ( 即 冯 Y ded Xd 的 
单位 阵 ) 。 EX D 为 对 角 阵 ， 满足 当 D,,;=0 时 Di 一 0， 否则 Di';=1/D.,,:。 现在 ， 定 义 

At=VDrV E g=—Ath 
令 v; 为 V 的 第 i 列 ， 那 么 我 们 有 
A w= AAtb = VDVITVD+VI = VDD* V"b= >) vivib 


isD, , #0 


BD, A wit b FEABLE ED, A0 的 向 量 w FANBOY. A Axi. or. Xn 张 成 的 线性 空 
间 与 w 张 成 的 空间 一 致 且 b 由 x; 线性 张 成 ， 我 们 有 A w=b, CER T RIA. 


92.2 多 项 式 线性 回归 
一 些 学 习 问 题 需要 非 线 性 预测 ， 比 如 多 项 式 预 测 。 一 个 n 阶 一 维 多 项 式 函 数 的 例子 是 
plx) = ao Hajx +H azz’ 4er tH anr” 
其 中 (ao s a J ERER ntl 的 同 量 系数 。 下 面 我 们 表述 一 个 训练 集 ， 使 用 3 阶 多 项 
式 拟 合 效果 要 优 于 线性 预测 。 





我 们 这 里 关注 ” 阶 一 维 多 项 式 回 归 类 ， 即 
Flas = {x bop (x) } 
Ep p 是 n 阶 一 维 多 项 式 ， 以 系数 向量 (a,。，…，a) 参 数 化 。 需 要 注意 它 是 一 个 一 维 多 项 
式 回归 问题 ， 当 二 民有 站 二 RR。 
对 于 这 类 的 一 种 学 习 方 法 是 化 简 为 我 们 已 经 介绍 的 线性 回归 问题 。 为 将 多 项 式 回归 转 
化 为 线性 回归 ， 我 们 定义 映射 p RR E paS, r, r, e, t), BARNA 
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ppF)) = ao taxta + tam" = apr)? 
这 样 我 们 能 够 通过 上 文 的 最 小 平方 算法 找到 系数 向 量 a 的 最 优 解 。 


9.3 ise erin lA 

EEEH, RAIRA h KR’ 映射 到 L0，1 区 间 。 然 而 ， 逻 辑 斯 谤 
回归 被 用 于 分 类 任务 : 我 们 可 以 将 h(x) 解读 为 x 标签 为 1 的 概率 。 逻 辑 斯 详 回 归 的 假设 类 
由 sigmoid 函数 gig: R>LO, 1J, MARAE RR Lv 。 特 别 地 ， 逻 辑 斯 请 回归 中 的 
sigmoid 函数 是 逻辑 斯 详 函 数 ， 它 定义 为 


] 
yatz) = 1+ exp(— z) ee) 


sigmoid 这 个 名 字 意 味 S 形 状 ， 指 上 图 所 示 的 函数 形状 。 因 此 假设 类 为 (此 处 为 简便 ， 
我 们 使 用 齐 次 线性 函数 ) : 
Haig = sig ° La = {x bag (Kw.x)) w E R} 
需要 注意 的 是 ， 当 (4(w，x) 非 常 大 则 Pig Kw, Xx)) 趋 近 于 1]， 而 《w， x) JER NI Pig (ws 
x)) 趋 近 于 0。 回 顾 半空 间 假 设 预测 ， 其 中 与 w 相 一 致 的 符号 为 (w，x)。 因 此 ， 当 | (w，x)| 很 
大 时 ， 半 空间 假设 和 逻辑 斯 谤 假设 的 预测 是 相似 的 。 然 而 ， 当 |(w，x) | 接近 0 时 ， 我 们 


有 big Cw, xs. HWE, 2 Sr i Bast EA. BT ER i EES 


(Cw, x) BRIA F 50%。 相 比 之 下 ， 半 空间 假设 总 是 输出 确定 的 1 或 一 1， 即 使 
| cw，x) | 非常 接近 0。 

下 面 ， 我 们 确定 损失 函数 。 即 ， 我 们 应 该 定义 给 定 yE { 士 1} 时 ,使 用 hh, (x)E[0，1] 
预测 的 损失 程度 。 显 然 ， 我 们 希望 如 果 y=1 时 ，h, 尽 可 能 大 ; y=—1 时 ，1 一 h,( 即 预测 
一 1 的 概率 ) 尽 可 能 大 。 注 意 ， 

一 SE ms ae ge 二 

一 一 NER 1+ exp(— (w,x)) 1+ exp((w,x)) 

因此 ， 任 何 合理 的 损失 函数 都 应 i wy ey 或 者 等 价 地 ， 随 1 十 


exp(— ylw, ane 逻辑 斯 说 中 惩罚 h, 的 损失 函数 基于 1t+exp(— ylw, x)) xt Be 
(对 数 是 单调 函数 )， 
"gt = log(l1 + exp(— y(w,.x))) 
因此 ， 给 定 训练 集 S= (x1, y), ets ms vm)» BEW AY ERM 问题 为 


na 1 Sloga + exp(— 9;¢w,X;))) (9. 10) 


er ta eA — AE 点 是 它 是 关于 w 的 凸 函数 。 所 以 ERM 问题 可 以 使 用 标准 
方法 有 效 求 解 。 我 们 将 在 后 续 章 节 中 研究 如 何 利用 凸 函 数学 习 ， 在 特殊 情况 下 用 简单 的 算 
法 最 小 化 凸 范 数 。 





逻辑 斯 详 回 归 的 ERM 问题 ( 式 9. 10) 与 最 大 似 然 估 计 问 题 相 同 ， 后 者 是 一 个 在 给 定数 
据 集 和 具体 的 参数 化 概率 函数 上 寻找 联合 概率 最 大 化 的 著名 统计 学 方法 。 我 们 将 在 第 24 
章 中 学 习 最 大 似 然 方 法 。 


94 人 小结 

线性 预测 是 假设 类 中 最 有 用 的 部 分 ， 许 多 广泛 应 用 的 学 习 算 法 都 是 基于 线性 预测 。 对 
于 线性 预测 可 分 情形 中 的 0 一 1 损失 ， 不 可 分 情形 的 平方 损失 以 及 逻辑 斯 说 损失 ， 我们 给 
出 了 有 效 的 学 习 算 法 。 在 后 面 的 章节 ， 我 们 将 展示 这 些 损失 孔 数 之 所 以 能 够 有 效 进 行 学 习 
的 性 质 。 

自然 地 ， 当 我 们 先 验 假设 一 些 线性 预测 在 特定 分 布 上 具有 低 风 险 时 ， 线 性 预测 是 有 效 
的 。 下 一 章 中 我 们 将 看 到 如 何在 简单 类 上 使 用 线性 预测 构建 非 线性 预测 。 这 将 使 我 们 利用 
线性 预测 解决 多 种 先 验 假设 。 


9.5 文献 评注 


感知 器 算法 源 于 Rosenblatt(1958) ， 其 收敛 率 的 证 明 来 自 于 Agmon(1954) 和 Novikoff 
(1962) 。 最 小 平方 回归 源 于 Gauss(1795) ，Legendre(1805) 和 Adrain( 1808) 。 


9.6 练习 


9.1 说 明 如 何 使 用 线性 回归 的 绝对 值 损失 函数 解决 ERM fat, £(h, (x, y))=|h(x)— 

y| ， 即 证 明 如 何 将 

aas anaal 
w i=1 
写成 线性 规划 。 
提示 : DEAS cER, 
|c| = mina sE eSa BE ce 

9.2 证 明 式 (9.6) 中 的 A ERER HAL xi, ，…，xw KAR’. 
9.3 证 明和 定理 9. 1 在 下 面 情形 下 的 严格 性 IERES m, Ale z ER (对 于 一 

些 合适 的 d) 和 序列 样本 {(xi， VD) hens Ce ym)}) 使 下 列 条 件 满足 : 

1) R=max| x; [<1 i 

2) |w” |? =m HX FATA HY i<m, Yy: Xs w ) 之 1]。 注 意 ， 使 用 定理 9. 1 中 的 记 

号 ， 我 们 可 以 得 到 
因此 (BR) Sm., 

3) 对 序列 样本 使 用 感知 器 方法 时 ， 将 在 冯 步 后 收敛 。 

提示 : 选取 d=m, ELST FAY i 选取 xi 一 el。 
“9.4 给 定 任 意 m, 找到 序列 中 有 标签 样本 { (xi ， ai As Ba: E Ym) E UR X{—1, TiO y 
的 样本 ， 使 定理 9. 1 中 的 上 界 为 m 且 感 知 器 算法 出 现 m 个 错 分 。 
提示 : 设 定 每 个 x; A-ABwla, b, y) th 3 AAF, HH ’+H7—=—RK—-1, 4 
w'=(0, 0, 1), PRAMBRER GEA CHI), 找到 我 们 使 用 不 等 号 (过 ) 而 
不 是 等 号 (一 ) 的 地 方 ， 思 考 什 么 情形 下 等 号 成 立 。 
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9. 5 


9.6 
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假设 我 们 改进 感知 器 算法 : 在 更 新 步 又， 当 分 类 错误 时 我 们 使 用 z” ”三友 ”十 7 x a> 
OMA Ww? 一 zo2 十 yx。 证 明 改 进 感知 需 算 法 的 迭代 步 数 与 原始 感知 器 一 样 ， 并 且 
收敛 时 向 量 所 指向 的 方向 也 相同 。 
本 题 中 ， 我 们 将 考虑 IR! 球 空间 类 的 VC 维 。 
Ba 一 人 E R’ ,r > 0} 
其 中 
Ll $ jemala 
0 其 他 
1) 考虑 映射 pR R, Ep pasl, xl, ERWE s, e xn 被 8B4 FT, 
则 px), e885 POAR R 半空 间 打 散 ( 在 这 个 方程 中 我 们 假定 sign(0) 王 1)。 关 
于 VCdim(B84)， 这 告诉 了 我 们 什么 ? 


“ 2) Æ RY 中 找到 被 84 打 散 的 d 十 1 个 点 的 集合 ， 证 明 


d+1< VCdim(Ba) <d+2 


| 第 10 章 


Understanding Machine Learning: From Theory to Algorithms 


boosting 


boosting 作为 一 种 源 自理 论 问题 的 算法 范式 ， 已 经 发 展 成 为 一 种 非常 实用 的 机 天 学 习 
TĦ., boosting 算法 泛 化 了 线性 预测 器 ， 并 由 此 处 理 本 书 前 面 提 及 的 两 个 主要 问题 。 第 一 
个 问题 是 偏差 -复杂 度 权衡 。( 在 第 5 章 ) 我 们 已 经 看 到 ， 根 据 经 验 风 险 最 小 化 (ERMD 原则 
得 到 的 学 习 器 的 误差 可 以 拆 分 为 逼近 误差 和 估计 误差 二 者 之 和 。 我 们 要 搜索 的 学 习 硕 的 假 
设 类 表达 能 力 越 强 ， 那 么 它 的 和 逼 近 误 差 也 就 越 小 ， 但 是 估计 误差 则 相应 变 大 。 因 此 ， 任 何 
一 种 学 习 器 都 会 面临 如 何 更 好 地 权衡 二 者 之 间 关 系 这 样 一 个 问题 。boosting 算法 使 得 学 习 
器 可 以 对 这 二 者 的 权衡 有 一 个 平滑 的 控制 。 算 法 首先 从 一 个 最 基本 的 假设 (可 能 会 有 较 大 
的 通 近 误差 ) 开 始 ， 随 着 算法 的 进行 ， 预 测 需 所 属 的 假设 就 变 得 越 来 越 完 善 。 

boosting 涉及 的 第 二 个 问题 就 是 算法 学 习 的 计算 复杂 度 。 正 如 第 8 章 所 述 ， 对 于 一 些 
我 们 感 兴趣 的 假设 类 ， 寻 求 对 应 的 ERM 假设 可 能 从 计算 上 来 说 是 不 可 行 的 。boosting 算 
法 则 可 提高 弱 学 习 器 的 精度 。 直 观 地 说 ， 我 们 可 以 认为 弱 学 习 需 就 是 根据 经 验 法 则 ， 从 一 
组 易于 学 习 的 假设 空间 中 获取 一 种 假设 的 算法 。 对 于 这 类 学 习 器 ， 它 们 的 效果 仅 需 略 优 于 
随机 猜测 。 如 果 弱 学 习 器 是 易于 实现 的 ，boosting 则 相当 于 一 种 工具 ， 它 可 以 将 这 些 弱 学 
习 器 聚合 得 到 近似 最 优 的 预测 器 ， 而 这 些 预测 器 可 以 适用 于 比较 大 且 难 于 学 习 的 假设 。 

本 章 中 ,我 们 将 描述 分 析 一 种 实用 且 有 效 的 boosting 算法 一 一 AdaBoost (Adaptive 
Boosting)。AdaBoost 算法 可 以 得 到 一 个 假设 ， 而 这 个 假设 是 一 些 基 本 假设 的 线性 组 合 。 
也 就 是 说 ，AdaBoost 依赖 于 假设 类 族 ， 而 这 些 假设 类 则 是 通过 一 些 简 单 类 的 线性 组 合 而 
得 。 后 面 我 们 会 说 明 AdaBoost 仅仅 通过 调整 一 个 参数 即 可 控制 逼近 误差 与 估计 误差 的 
权衡 。 

AdaBoost 揭示 了 通过 其 他 因数 的 组 合 可 以 提高 线性 预测 需 的 表示 能 力 这 样 一 个 主题 ， 
本 书后 续 会 提 到 这 点 。10. 3 节 详 细 介 绍 了 这 一 问题 。 

AdaBoost 源 自 于 能 和 否 由 高 效 的 弱 学 习 器 聚合 为 高 效 的 强 学 习 器 这 样 一 个 理论 问题 。 
这 个 问题 最 早 由 Kearns 和 Valiant 于 1988 年 提出 ， 随 后 Robert Schapire 于 1990 年 解决 
了 此 问题 ， 而 后 及 省 理工 学 院 的 一 名 人 研究生 也 对 其 进行 了 研究 。 然 而 ， 当 时 提出 的 这 种 方 
法 并 不 实用 。1995 年 ，Robert Schapire 和 Yoav Freund 提出 AdaBoost 算法 ， 这 是 第 一 个 
真正 实用 且 易 于 实现 的 boosting 算法 。 这 个 简单 而 严谨 的 算法 很 快 广 为 流传 ，Freund 和 
Schapire 的 这 一 工作 也 末 获 了 很 多 的 奖项 。 

进一步 说 ，boosting 是 冲击 可 学 习 理 论 实用 性 的 一 个 很 好 的 例证 。 尽 管 boosting W A 
于 纯 理 论 问题 ， 但 它 已 经 产生 了 许多 广 为 流 传 的 应 用 算法 。 事 实 上 ， 正 如 本 章 前 面 所 提 ， 
AdaBoost 已 经 成 功 应 用 于 人 脸 图 像 检 测 。 


10.1 弱 可 学 习 


先 回 顾 一 下 第 3 章 PAC 可 学 习 的 定义 。 称 一 个 假设 类 ZX 是 PAC 可 学 习 的 ， 如 果 存 在 
样本 复杂 度 my :(0，]1) 一 N 以 及 具有 如 下 性 质 的 学 习 算法 对 于 任意 的 e，6E (0, 1), 任 
意 上 上 的 分 布 P， 以 及 任意 标签 函数 f:xX+ 一 { 土 1}， 如 果 可 实现 假设 对 于 区 ，D，f 成 立 ， 
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那么 ， 当 学 习 算 法 作用 于 分 布 D 产 生 的 、 由 标签 函数 f 标定 的 m 宇 my (e， 6) 个 独立 同 分 布 
的 样本 时 ， 会 返回 一 个 假设 有 使 得 L op Me 的 概率 至 少 为 1 一 6。 
进一步 说 ， 可 学 习 理 论 基 本 定理 (第 6 章 定 理 6. 8) 描 述 了 可 学 习 类 族 并 指出 任意 PAC 
可 学 习 类 均 可 由 ERM 算法 学 得 。 然 而 ，PAC 可 学 习 的 定义 及 可 学 习 理论 基本 定理 均 忽略 
了 学 习 的 计算 复杂 度 。 事 实 上 ， 正 如 第 8 章 所 述 ， 在 有 些 情况 下 ,使 用 ERM 准则 从 计算 
上 来 说 是 十 分 困难 的 (尽管 可 实现 )。 
然而 ， 或 许 我 们 可 以 通过 降低 精度 来 降低 计算 复杂 度 。 给 定 分 布 D 以 及 目标 标签 
函数 f， 是 否 存 在 一 种 误差 略 优 于 随机 猜测 但 可 高 效 计 算 的 学 习 算 法 ? 这 就 引出 了 如 
下 定义 。 
定义 10. 1(y - 弱 可 学 习 ) 
o 我 们 称 学 习 算 法 A 是 类 了 的 y- 弱 可 学 习 器 ， 如 果 存 在 函数 zz :(0，1) 一 NN 使 得 对 任 
意 的 6E (0，1)， 任 意 写 上 的 分 布 D， 以 及 任意 标签 函数 :>{ 士 1) ， 可 实现 假设 
对 于 兴 ，D，f 上 成立， 那么 ， 当 学 习 算 法 作用 于 分 布 D 产 生 的 、 由 标签 函数 f 标定 的 
m>my, (8) 个 独立 同 分 布 的 样本 时 ， 会 返回 一 个 假设 及 使 得 Lop.p (h)<1/2—y 的 概 
率 至 少 为 1 一 6。 
o 对 于 假设 类 存在 一 个 y- 弱 可 学 习 的 学 习 器 ， 那 么 就 称 假设 类 XH 是 y - 弱 可 学 习 的 。 
在 这 里 我 们 称 PAC 可 学 习 为 强 可 学 习 ， 这 个 定义 与 PAC 可 学 习 的 定义 几乎 相同 ， 最 
主要 的 一 点 不 同 就 是 : 强 可 学 习 踢 调 能 够 找到 一 个 任意 精度 的 分 类 需 的 能 力 ( 对 于 任意 小 
的 e 之 0， 误 差 最 大 为 se) 。 然 而 在 弱 可 学 习 中 ,我 们 仅仅 需要 得 到 一 个 误差 最 大 为 1/2 一 y 
的 假设 ， 也 就 是 说 ， 误 差 仅 需 优 于 随机 猜测 。 我 们 希望 的 是 寻求 一 个 高 效 的 弱 学 习 器 比 得 
到 一 个 高 效 的 强 学 习 器 容易 。 
可 学 习 理论 基本 定理 (定理 6. 8) 指 出 ， 如 果 假 设 类 了 的 VC X d, HPAC 可 学 习 的 


采样 复杂 度 满足 mCe，8) 之 Ci EL ， 其 中 C 为 常数 。 将 es 一 1/2 一 y 代入， 我 们 很 
快 可 以 得 出 如 果 d= 二 oo， 那么 就 不 是 y - 弱 可 学 习 的 。 这 就 表明 ， 从 统计 的 角度 看 (如 果 
我 们 忽略 计算 复杂 度 ) ， 弱 可 学 习 也 由 假设 双 的 VC 维 刻 画 ， 因 此 它 与 PAC( 强 ) 可 学 习 一 
样 困 难 。 然 而 ， 当 我 们 考虑 计算 复杂 度 时 ， 弱 可 学 习 潜 在 的 优势 在 于 或 许 存在 一 种 算法 满 
足 弱 学 习 器 的 要 求 ， 并 且 是 易于 实现 的 。 

可 行 的 方法 就 是 选取 一 个 简单 的 假设 类 ， 记 作 B， 利 用 ERM 准则 将 B 作为 弱 学 习 算 
法 。 为 了 实现 这 一 目的 ,我们 需要 B 满足 如 下 两 个 条 件 : 

@ 上 ERM5 可 以 高 效 地 实现 。 

e 对 于 每 个 通过 ?中 的 假设 类 标记 的 样本 ， 任 意 的 ERM# 误 差 最 大 为 1/2 一 y。 

接 下 来 的 问题 就 转换 为 是 否 可 以 将 高 效 的 弱 学 习 器 集成 为 高 效 的 强 学 习 器 。 下 一 节 我 
们 会 说 明 这 确实 是 可 行 的 ， 但 在 此 之 前 ， 先 来 看 一 个 例子 。 这 个 例子 表明 ， 用 基础 假设 类 
B 可 以 得 到 类 的 高 效 弱 可 学 习 器 。 

(用 决策 桩 得 到 3 段 分 类 器 弱 可 学 习性 ) =R, HE 3 段 分 类 器 类 ， 即 ， 
H= tho, .0,.0: A. QER, Oi <b; » be {orl} }s 对 于 任意 并 
+b wMRr <0 Rth 
=p WRI, Kxr<h, 


ho, +O +b (x) = 


— Bil FAB (b= DRAN F : 
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设 B HAEA, thet, B=(ar sign(x 一 0) + b6:0ER, DE{+1}}. FERI 
LAR ERM, tHE y - 弱 可 学 习 的 ， 其 中 y=1/12. 

为 了 说 明 这 点 ， 我 们 首先 明确 ， 对 于 与 叉 一 致 的 每 一 个 分 布 ， 都 有 一 个 决策 桩 使 得 
Lp (h) 志 1/3。 事 实 上 ， 中 的 每 个 分 类 器 都 包含 三 块 区 域 ( 两 个 无 界 的 射线 区 域 和 一 个 中 
心 区 域 ) ， 每 块 区 域 都 有 可 变 的 标签 。 对 于 任意 的 一 对 区 域 ， 都 有 一 个 决策 桩 与 这 两 部 分 
的 标签 一 致 。 对 于 实数 域 上 任意 的 分 布 D， 对 于 任 一 将 这 条 直线 划分 为 三 块 的 划分 ， 三 块 
区 域 当 中 必 有 一 块 区 域 对 应 于 D 的 权重 最 大 为 /3。 设 hEHM 是 一 个 零 误差 的 假设 。 决 策 桩 
仅仅 在 这 一 区 域 与 hh 不一致， 误差 最 大 为 1/3。 

最 后 ， 由 于 决策 桩 的 VC 维 是 2， 如 果 样 本 大 小 稍 大 于 Q (og(1/6)/e )，ERMs 规 则 
返回 一 个 误差 最 大 为 1/3 十 e 的 假设 的 概率 至 少 为 1 一 68。 设 e 二 1/12， 我们 可 以 得 到 ERMs 
误差 最 大 为 1/3+1/12=1/2—1/12., 

我 们 可 以 看 到 ERMs 对 ZX 是 一 个 y - 弱 可 学 习 器 。 接 下 来 我 们 将 说 明 如 何 将 ERM 准则 
有 效 地 应 用 到 决策 桩 中 。 


有 效应 用 ERM 准则 于 决策 桩 

设 t+ 二 RR， 考虑 RR 上 的 基本 假设 类 决策 桩 ， 也 就 是 说 ， 

Ups = {x sign(@—z;) - b:0 € R,i E [d],b E {+1}} 

简单 起 见 ， 设 2 一 1; 也 就 是 说 ,我们 考虑 His 中 具有 sign(9 一 zx;) 形 式 的 所 有 假设 。 设 
SS 一 (CO，y)，…，(Cxz，ym)) 为 训练 集 。 接 下 来 我 们 将 说 明 如 何 应 用 ERM 规则， 也 就 
是 怎样 找到 一 个 决策 桩 使 得 Ls(h) 最 小 。 更 进一步 ， 由 于 在 下 一 市 说 明 AdaBoost 需要 寻 
求 一 个 与 S 上 的 分 布 相关 并 且 风 险 最 小 化 的 假设 ， 这 里 我 们 会 说 明 如 何 最 小 化 这 种 风险 郴 
数 。 更 精确 地 说 ， 设 D 是 R" 里 的 一 个 概率 向 量 ( 也 就 是 说 ，D 里 所 有 元 素 值 非 负 并 且 >， 


D; 一 1) 。 后 面 我 们 描述 的 弱 学 习 器 输入 D 和 S， 输 出 一 个 决策 桩 及 :~ 最 小 化 关于 D 的 
风险 


Ly(h) = $ D; racx, )Ay,] 
一 ] 


注意 到 如 果 D=(1/m, «+, 1/m), HB ALp(h)=Le(h). 
我 们 知道 每 个 决策 桩 由 索引 Eld JO ee. A. Be MEL (h) 等 价 于 解决 
min min( 2 D; itz >00 + 2, D; rz. <a) (10. 1) 


j€ld] JER 


固定 7 Eld] 并 对 样本 进行 排序 ft 8 2; T a <<a. BU = 
= “et „i€ [m—1]}U {((zivy 一 1)，(Czwj 十 1)}。 对 于 任意 的 及， 必 存 在 PEG ， 对 


于 样本 S 有 相同 的 预测 结果 。 因 此 ， 我 们 可 以 在 9€ 8; 上 而 不 是 9ERR 上 最 小 化 目标 函数 。 
这 已 经 给 我 们 提供 了 一 种 高 效 的 算法 : 选择 jE Ld] 和 0€ ;使 得 公式 (10. DM ARR 
数值 最 小 。 对 于 每 一 个 MOCO 我们 必须 计算 m 个 样本 的 总 和 ; 因此， 这 种 方法 的 运行 
时 间 是 O(dm?* )。 接 下 来 我 们 会 介绍 一 个 简单 的 技巧 使 得 最 小 化 目标 函数 的 运行 时 间 
为 OCdm)。 
算法 流程 如 下 。 假 定 我 们 已 经 计算 得 到 对 于 9€ (x;_ 1,;，zi,;) 的 目标 函数 值 ， 并 假定 





78 ”第 二 部 分 从 理论 到 算法 


F(9) 为 此 目标 函数 值 。 当 我 们 考虑 9 E ijo siaip IA 
104 F0) = FO — D; 1b,=1) + D; 1b;=-11 = FCO) — yiD. 
因此 ， 给 定 在 先前 的 阔 值 0 XbA AeA. FRAT AT EE ST A: H PR eR 
数 在 0 处 的 值 。 N, 经 过 对 样本 的 每 个 坐标 进行 排序 这 样 一 个 预 处 理 ， 最 小 化 问题 
就 可 以 在 Ol(dm) 时 间 内 解决 。 伪 代码 如 下 : 


决策 桩 经 验 风 险 最 小 化 
输入 : 
训练 集 S=(C(xis yis s (Xms Vm) 
分 布 向 量 DD 
目标 : 寻找 7 ，0 满足 等 式 (10. 1) 
初始 化 : F* =œ 
for j=l, =, d 
根据 第 j 维 坐 标 对 S 排序 ， 并 记 
lp 


F= >) D, 
isy; =] 


if F&F" 
F" =F, 0 =2,;-—1, j" =J 
for z=1, =, m 
F=F—y,D; 
if FF" HB tij Atii 
FY =F, 0° 一 于 (zu 十 zi f° =i 


输出 : jo 0° 





10.2 AdaBoost 


AdaBoost 是 一 种 可 以 获得 弱 学 习 器 并 寻求 经 验 风险 最 小 的 算法 。AdaBoost 算法 的 输 
人 为 样本 训练 集 S=( (Xj » yids ee, (Xa Vad) 对 于 每 一 个 i， yi = f Cx R MA FER A 
数 f, boosting 算法 就 是 一 个 连续 迭代 的 过 程 。 在 第 1 次 迭代 中 ，booster 首先 定义 样本 集 S 


上 的 分 布 ， 以 D” 表 示 。 也 就 是 说 De CR, IFAD) D? =1, 然后 ，booster 将 分 布 D2 和 样本 


集 S 传递 给 弱 学 习 器 。( 在 这 种 方式 下 ， 弱 学 习 器 可 以 根据 Do 和 f 构建 独立 同 分 布 的 样 
本 。) 弱 学 习 器 将 会 返回 一 个 “ 弱 ” 的 假设 六 ， 其 误差 


e = Ly ho = >) DP Miep 
i=] 
l wiz » 
最 大 为 了 一 X( 当 然 ， 呢 学 习 需 也 会 有 不 超过 8 的 概率 是 失败 的 )。 然 后 ，AdaBoost 分 配给 


六 一 个 权重 wo, 一 于 log( 二 一 1)。 也 就 是 说 , 万 的 权重 与 /的 误差 成 反比 。 在 适 代 过 程 的 最 
后 ，AdaBoost 更 新 样本 分 布 ， 使 得 六 分 错 的 样本 概率 更 大 而 分 正确 的 样本 概率 更 小 。 直 
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观 地 说 ， 这 会 强制 弱 学 习 器 在 下 一 次 迭代 中 更 加 关注 上 一 次 分 错 的 样本 。AdaBoost 算法 
的 输出 是 一 个 基于 所 有 弱 假 设 空间 加 权 和 的 “ 强 ” 分 类 融 。AdaBoost 伪 代 码 如 下 : 






AdaBoost 






输入 : 
训练 集 S=((x1> yis "Sg 学 Vid) 
弱 学 习 器 WL 
迭代 次 数 丁 
ji 
Ci 
初始 化 : DP=(—, = >) 
for t=l, d T 
HAF Z h SWL”, S) 
计算 e=% D” Leh, xpp] 


设 w= log(——1) 










更 新 Do+D = 0》 _ ， 对 任意 的 i 二 1]，…，m 
DP exp(— w, y; h,(x;)) 


j=l 


T 
输出 : 假设 hs(x) = sign( >) w, hi (x) ) 
t=] 





接 下 来 的 定理 表明 输出 假设 的 训练 误差 随 着 boosting 迭代 次 数 的 增加 呈 指 数 下 降 。 
定理 10.2 假定 3 为 训练 集 ， 并 且 AdaBoost 每 次 迭代 之 后 的 弱 学 习 器 都 会 返回 一 个 


假设 使 得 e < y. AdaBoost 输出 假设 的 训练 误差 最 大 为 


Ls (hs) = + >) iisas] < exp (—2'T) 
i=] 
证 明 IER. id f= Dd) wsh, Alt, AdaBoost Hitt fr, Bb, jz 
pet 


= i : yt, (a) 
Be -DA e 
对 于 任意 的 假设 ， 我 们 有 ne 疝 委 eye 。 因 此 ,Ls (fr) 志 27， Fl He JR te WE BA Zr < 


e-27。 为 了 得 到 Zr 的 上 界 ， 我 们 将 其 重 写 为 
= ÊT St , 201.4 hh 


lg = Fe 元 元 (10. 2) 
这 里 我 们 利用 了 Z 二 1， 因 为 fh 寺 0。 因 此 ， 只 需 证 明 对 于 每 一 次 迭代 1， 
< ee (10. 3) 
为 证 明 上 式 ， 我 们 首先 说 明 ， 利 用 一 个 简单 的 归纳 证 明 ， 对 于 所 有 的 t+ 和 1i， 
pt — ee 
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因此 ， 
eH Gp? 9 ejf (x;) i=l 
p= 


= eH > DHD 十 etm > Ditty 


Zia __ 
Z, 





= 和 “a (1 = ) 十 er! Eni 


— l i a l —1 64 
/ 1 Erh 


Ba 


“Aime tu) tj en. = 2 Vem (1 — Em) 
— Er 


根据 假设 ， en<s —y, FFARR e(a)=al—a)fEL0, 1/2) EI. BTA 
得 到 








2 fen —en) <2,4/($—7) (+7) = ae 


最 后 ， 根 据 不 等 式 1—a[Lle RMT A VIA y <e 7 =e”, KRW T 
式 (10. 3) 成 立 ， 也 就 证 明了 我 们 的 结论 。 m 
AdaBoost 每 次 迭代 有 O(Cm) 步 操作 以 及 一 个 调用 弱 学 习 器 操作 。 因 此 ， 如 果 弱 学 习 器 
可 以 高 效 地 应 用 (正如 决策 桩 利用 ERM 准则 )， 那 么 总 的 训练 过 程 将 会 是 高 效 的 。 
评注 ”定理 10. 2 假定 AdaBoost 每 次 迭代 弱 学 习 器 都 会 返回 一 个 假设 ， 其 加 权 样 本 误 


差 最 大 为 户 一 y。 根 据 弱 学 习 器 的 定义 ， 也 会 有 6 的 概率 失败 。 根 据 一 致 界定 理 ， 弱 学 习 


器 在 所 有 的 迭代 过 程 中 不 失败 的 概率 至 少 为 1 一 8T。 练习 10. 1 中 可 以 看 到 ， 采 样 复杂 
与 失败 概率 6 总 是 对 数 关 系 的 ， 因 此 ， 对 于 弱 学 习 来 说 引入 一 个 非常 小 的 6 并 不 困难 。 因 
此 我 们 可 以 假设 OT 也 是 很 小 的 。 进 一 步 说 ， 因 为 弱 学 习 器 只 是 应 用 在 训练 集 上 的 分 布 ， 
很 多 情况 下 我 们 可 以 实现 弱 学 习 器 使 之 失败 的 概率 为 零 ( 即 8 一 0) 。 一 个 例子 就 是 弱 学 习 器 
采用 决策 桩 寻求 Lp (h) 最 小 的 情况 ， 前 面部 分 已 经 对 其 做 了 描述 。 

定理 10. 2 告诉 我 们 AdaBoost 构建 的 假设 的 经 验 风 险 随 着 工 的 增加 而 趋 近 于 零 。 然 
而 ， 我 们 真正 关心 的 是 输出 的 真实 误差 。 为 了 说 明 真 实 误 差 ， 我们 首先 明确 AdaBoost 的 
输出 事实 上 是 半空 间 的 组 合 ， 而 这 些 半空 间 是 由 能 学 习 需 构建 的 工 个 弱 假 设 。 下 一 节 我 们 
会 说 明 如 采 弱 假设 来 自 一 组 低 VC 维 的 假设 类 ， 那 么 AdaBoost 的 估计 误差 就 很 小 ， 也 就 
是 说 ，AdaBoost 输出 的 真实 风险 与 经 验 风 险 差别 不 会 太 大 。 


10.3 基础 假设 类 的 线性 组 合 


正如 前 面 提 及 的 ， 主 流 的 算法 构建 弱 学 习 器 时 在 某 一 个 基础 假设 类 应 用 经 验 风 险 最 小 
准则 (例如 ， 在 决策 桩 上 利用 ERM 准则 )。 我 们 也 知道 AdaBoost 的 输出 事实 上 是 半空 间 
的 组 合 。 因 此 ， 给 定 一 个 基础 假设 类 B( 例 如 决策 桩 ) AdaBoost 的 输出 将 会 是 下 列 当 中 
的 一 个 
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T 
L(B,T) = (xr sign( >) whi(z)):w € R", Veh, € B) (10. 4) 
t=1 


也 就 是 说 ， 每 个 hEL(B，T) 都 以 B 里 的 工 个 基础 假设 和 一 个 向 量 wERR 为 参数 。 这 样 的 
一 个 有 作用 于 实例 x 上 的 输出 可 以 通过 如 下 得 到 ， 首 先 利 用 工 个 基础 假设 构建 回 量 
pl)=(hi (x), =, hra) ER”, 然后， 将 w 定义 的 半空 间作 用 于 y(x)。 

本 节 我 们 分 析 VC 维 固 定 的 情况 下 L(B，T) 的 估计 误差 , 而 L(B，T) 的 VC 维 与 B 
的 VC 维 及 开 有 关 。 接 下 来 我 们 会 看 到 ， 最 大 为 对 数 ，L(CB，T) 的 VC 维 以 工 倍 的 妃 的 
VC 维 为 界 。 也 就 是 AdaBoost 的 估计 误差 随 着 工 线性 增加 。 另 一 方面 ，AdaBoost 的 经 验 
风险 随 工 递减 。 事 实 上 ， 我 们 后 面 将 会 说 明 ， 工 可 以 用 来 降低 工 (B，) 的 通 近 误差 。 因 
此 ，AdaBoost 的 参数 了 使 得 我 们 可 以 控制 偏差 -复杂 度 的 权衡 。 

为 了 说 明 L(B，T) 的 表示 能 力 是 如 何 随 着 而 增加 的 ， 考虑 一 个 简单 的 例子 ,= 二 
R, Fea AR RAE 

Hos: = {x Slgn( 工 一 0)。pD:0E Rob E {+1}} 

在 这 个 一 维 的 例子 中 ，?7tos SE ESOP OR 上 的 ( 非 齐 次 ) 半 空间 。 

假设 1t 为 更 加 复杂 的 (相对 于 直线 上 的 半空 间 来 说 ) 分 段 常 值 图 数 类 。 设 g, 是 一 个 最 大 
为 二 段 的 分 段 常 值 函 数 ， 也 就 是 说 ， 存 在 国 值 一 ce 二 %<0 天 六 天 … 一 0 一 coe 使 得 


2 (x) 二 b? Qi Lire @_, 0,91 Visa; E (ate Ly 


定义 9; 为 最 多 为 r BEA TA oP ER He BPR EZ 

接 下 来 我 们 说 明 9rSE(C7os ，T); 也 就 是 说 ,本 个 决策 桩 的 半空 间 类 等 价 于 最 大 本 
PLN SP Be is (BTR SE o 

事实 上 ， 不 失 一 般 性 ， 考 虑 任意 的 ¢€Gr## Ha, =(—1)', RRR. Me AK 
(6, 1，0.] 里 ， 那 么 g(x) 二 (一 1)‘。 例如: 


ARA, PAŽI 


g. 
h(x) = sign( >) wsign(z —0.1)) (10. 5) 
t=1 


其 中 wi 二 0. 5， 并 且 对 >l, ww 二 (一 1)' 属 于 L (Hn ，T) 并 且 等 于 g( 参 见 练习 10. 2) 。 

从 这 个 例子 我 们 可 以 看 出 ，L(XHns, ，T) 可 以 打 散 实数 域 及 上 任意 的 T 十 1 个 实例 组 成 
的 集合 ; 也 就 是 说 ， 工 (Fns DH VC 维 至 少 为 T 十 1。 因 此 ， 工 是 控制 偏差 -复杂 度 权 衡 
的 一 个 参数 : 增 大 工 可 以 得 到 一 个 表达 能 力 更 强 的 假设 类 ， 但 另 一 方面 ， 又 可 能 增加 估计 
误差 。 在 下 一 小 节 ， 我 们 会 正式 给 出 对 于 任意 基 类 B，L(B, 了 T) 的 VC 维 上 界 。 


L(B, T)BY VC 4 


下 面 的 定理 表明 LB, MHI VC 维 以 OCVCdim(B)T) 为 上 界 (O 符 号 忽略 了 常数 及 对 
RAF). 
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一 


引 理 10.3 BAX, LB; 本 ) 定 义 如 等 式 (10.4),， BM T f VCdim(B) 4 BY 


A 3. ABA 
VCdim(L(B,T)) < TCVCdim(B) + 1) Blog(TCVCdim(B) + 1)) + 2) 
证 明 i d=VCdim(B), C={x1s **s Lm} Al FA LOB, T) 打 散 ， 由 hEL(B,， TI 
cE C 的 标签 ， 首先 选择 hl， ee | hrEB, 然后 对 问 量 (hi Cr), hs《z)) 应 用 半空 间 假 


设 。 由 Sauer 引 理 ,，B 在 C 上 最 多 有 (em/d)" 种 不 同 的 二 分 法 (标签 ;。 因 此 ， 我 们 要 从 
(em/d)" 个 不 同 的 假设 中 选 出 TT 个， 而 这 样 的 选择 最 多 有 (em/d)” 种 。 接 下 来 ， 对 于 每 一 
个 选择 ， 我 们 应 用 一 个 线性 预测 器 ， 也 就 得 到 了 最 多 (em/T) "种 二 分 法 。 因 此 ， 我 们 所 能 
构建 的 二 分 法 的 总 数 最 多 为 
(em/d)" Cem/T)? K mAT 

这 里 我 们 应 用 了 d MT 均 至 少 为 3 的 假设 。 由 于 假定 C 可 被 打 散 ， 我 们 必须 使 前 半 部 分 

AR /\\F 2”, 因此 
gm < mt dT 

因此 ， 
(ar i 

log(2) 
附录 A 中 的 引 理 A. 1 表明 使 前 半 部 分 成 立 的 必要 条 件 是 


(人 村 17T + DT 
m<2 log(2) log Tog(2) = (a + LT (oad + lI) + 2) 


以 上 定理 得 证 。 a 
在 练习 10. 4 PRISE. TFE B, VCdim(L(B, T))=>Q(VCdim(B)T) 
也 成 立 。 


10.4 AdaBoost 用 于 人 脸 识别 


现在 我 们 转向 由 Viola 和 Jones 提出 的 用 于 人 脸 识别 的 一 个 基础 假设 。 在 这 个 任务 里 ， 
实例 空间 是 图 像 ， 图 像 由 像素 灰 度 值 矩 阵 表 示 。 为 简单 起 见 ， 假 设 图 片 大 小 为 24 X24( 像 
素 )， 也 就 是 说 我 们 的 实例 空间 就 是 大 小 为 24 X24 的 实 值 矩阵 的 集合 。 我 们 的 目的 是 学 得 

一 个 分 类 器 h:X 一 { 土 1}， 使 得 输入 一 幅 给 定 的 图 像 ， 输 出 结果 为 图 片 中 是 否 包 含 人 脸 。 

基 类 的 每 个 假设 都 具有 AZz) 一 88gCz)) 的 形式 ， 其 中 了 是 决策 桩 ，g: 玉 一 及 将 一 
幅 图 像 映射 为 一 个 实数 。 每 个 函数 g 由 以 下 信息 参数 化 : 

o 轴 对 齐 的 矩形 R。 由 于 每 幅 图 像 大 小 为 24X24， 最 多 有 24: 个 轴 对 齐 的 矩形 。 

e 一 种 类 型 ，1:€E (A，B，C，D}。 每 种 类 型 对 应 一 个 掩 模 ， 见 图 10. 1。 


CO 


图 10. 1 基 假 设 用 于 人 脸 识 别 的 四 种 函数 类 型 gs。 类 型 A MB 的 g 值 是 两 个 矩形 区 域 各 自 像 素 值 和 
的 差 。 这些 区 域 大 小 形状 相同 ， 水 平 垂 直 相 接 。 对 于 类 型 C，g 的 值 为 中 间 和 矩形 像素 值 和 
减 去 两 侧 和 矩形 区 域 像素 值 之 和 。 对 于 类 型 D， 我们 计算 对 角 线 成 对 和 矩形 的 差 值 


为 了 计算 g8， 我 们 将 掩 模 上 拉 伸 以 适用 矩形 尺 ， 然 后 将 内 矩形 像素 之 和 减 去 在 外 和 矩形 


m < log(m) 
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内 的 像素 之 和 (也 就 是 灰 度 值 的 总 和 )。 

由 于 这 样 的 函数 g 最 多 有 244X4 个 ， 所 以 我 们 在 对 基 假 设 类 应 用 弱 学 习 器 的 时 候 ， 融 
可 以 通过 首先 计算 g 对 于 每 一 幅 图 像 的 所 有 可 能 输出 ， 然 后 再 应 用 前 面 描 述 的 决策 桩 弱 学 
习 器 。 通 过 计算 训练 集 里 每 幅 图 像 的 积分 这 样 一 组 预 处 理 ， 使 得 第 一 步 可 以 高 效 地 完成 。 
详 见 练习 10. 5。 

图 10. 2 描述 了 当 运 行 由 Viola 和 Jones 提出 的 基 特 征 时 ， 通 过 AdaBoost 选 出 的 前 两 
个 特征 。 





> =, 
a 
= i 


图 10.2 Viola 和 Jones 应 用 的 由 AdaBoost 选 出 的 第 一 个 和 第 二 个 特征 。 第 一 行 是 两 
种 特征 ， 第 二 行 是 特征 覆盖 在 一 幅 经 典 人 脸 图 像 的 效果 。 第 一 个 特征 描述 眼 
睛 区 域 与 整个 上 部 脸颊 区 域 光 强 的 差 值 ， 而 通常 眼睛 区 域 要 比 脸颊 区 域 暗 。 
第 二 个 特征 比较 眼睛 区 域 及 穿 过 鼻梁 区 域 的 光 强 


10.5 小 结 


boosting 是 放大 弱 学 习 融 精度 的 一 种 方法 。 本 章 我 们 描述 了 AdaBoost 算法 ， 指出 了 
Zit T WIE, AdaBoost 会 返回 类 L(B，T) 的 一 个 假设 ， 而 这 是 通过 基 类 BAY T MRR 
的 线性 组 合 得 到 的 。 我 们 也 说 明了 参数 工 如 何 控制 逼近 误差 与 估计 误差 的 权衡 。 下 一 章 ， 
我 们 会 研究 如 何在 数据 集 上 调整 参数 (如 T). 


10.6 文献 评注 

正如 前 面 提 及 的 ，boosting 源 自 一 组 高 效 的 弱 学 习 器 是 否 可 提升 为 一 个 高 效 的 强 学 习 
器 这 样 的 一 个 理论 问题 (Kearns & Valiant 1998), ， 并 由 Schapire 解决 (1990)。AdaBoost 
算法 由 Freund 和 Schapire iH (1995), 

boosting 可 以 从 很 多 方面 来 描述 。 纯 粹 从 理论 上 讲 ，AdaBoost 可 被 解释 为 一 种 反面 
的 效果 : 如 果 假 设 类 的 强 学 习 计 算 困 难 ， 那 么 它 的 弱 学 习 也 同样 如 此 。 这 可 以 很 好 地 说 
AW, RHIA B 弱 学 习 ， 如 果 某 些 假 设 XNW 是 PAC 学 习 难 以 实现 的 ， 那 么 类 B 的 不 可 
Al PAC 可 学 习 也 是 难以 实现 的 。 例 如 ，Klivans 和 Sherstov(2006) 指 出 半空 间 交 叉 类 的 
PAC 学 习 是 困难 的 (即使 在 可 实现 的 情况 下 )。 这 个 结果 可 用 于 说 明 ， 单 个 半空 间 的 不 一 
致 PAC 可 学 习 是 计算 困难 的 (Shalev-Shwartz，Shamir & Sridharan 2010)。 其 目的 是 为 了 
说 明 由 一 个 半空 间 的 不 可 知 PAC 学 习 器 可 以 得 到 交叉 半空 间 的 弱 学 习 器 ， 由 于 弱 学 习 器 
可 以 提升 ， 我 们 就 可 以 得 到 交叉 半空 间 的 一 个 强 学 习 器 。 

AdaBoost 也 证 明了 弱 学 习 的 存在 性 与 在 基 假 设 类 上 用 线性 分 类 器 的 数据 可 分 性 二 者 等 
价 。 这 与 博弈 论 中 的 基本 定理 von Neumann 极 小 极 大 定理 (von Neumann 1928) 是 非常 相 
关 的 。 

AdaBoost 也 与 我 们 第 15 章 中 讲述 的 margin 相关 ; 它 也 可 看 做 我 们 第 25 章 中 讲述 的 
前 同 贪心 选择 算法 。Schapire 和 Freund 最 新 的 书 (2012) 涵 盖 了 boosting 的 所 有 方面 ， 这 
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使 得 我 们 更 易于 接触 到 此 领域 的 宝贵 财富 。 
10.7 练习 


10. 1 


boosting 置信 度 : 设 算法 A 确保 存在 常数 3。 € (0，1) 及 函数 mm : (0，1) 一 N， 使 得 
对 任意 的 sE (0，1)， 如 果 m 三 my， 那么 对 于 任意 的 分 布 D 满 足 Lp CAS) S 
mipLp (h) +e 的 概率 至 少 为 1 一 06。 
证 明 依赖 于 算法 A 及 假设 区 的 程序 满足 一 般 的 不 可 知 PAC 可 学 习 模 型 ， 并 且 采 样 
复杂 上 度 

my, (e060) < k myle) +| ec | 


其 中 ， 

k =f log(d)/log(d) | 
提示 : 将 数据 分 为 k 十 1 组 ， 其 中 前 上 组 样本 大 小 为 my (e)， 并 用 算法 A 学 习 前 上 组 。 
说 明 对 于 所 有 的 组 ， 均 有 Lp (A(S)) >minLp (h) +e 的 概率 最 大 为 6% 委 9V/2。 最 后 ， 利 
用 最 后 一 组 从 算法 A 根据 前 上 组 学 得 的 个 假设 里 面 进行 选择 (依赖 于 推论 4. 6)。 
证 明 等 式 (10. 5) 给 出 的 函数 六 等 价 于 利用 六 的 国 值 定 义 的 分 段 常 值 函 数 。 
我 们 用 并 不 正式 的 方式 说 明了 AdaBoost 算法 利用 权重 机 制 ,“ 迫 使 ” 弱 学 习 器 在 下 
一 次 迭代 中 聚焦 于 出 问题 的 样本 。 本 题 我 们 要 对 这 个 说 明 进 行 严 格 的 证 明 。 证 明太 
对 于 分 布 De+D 的 误差 为 1/2， 也 就 是 说 ， 证 明 对 于 任意 的 :ELT] 


m 


» DAD ira = 1/2 


i=] 


本 题 讨 论 L(B，T) 的 VCE, 我们 已 经 证 明了 一 个 上 界 OCdTlog(dT)), HR d= 
VCdim(B)。 这 里 我 们 希望 证 明 一 个 几乎 匹配 的 更 低 的 界 。 然 而 ， 这 并 不 是 对 所 有 
的 类 B 都 成 立 。 
1) 我 们 知道 对 任意 的 类 B 及 任意 迭代 次 数 T 宇 1,，VCdim(B) 过 VCdim(L(B, T)). 
寻找 一 个 类 B 使 得 对 于 任意 T 宇 1 有 VCdim(B)=VCdim(L(B, T)). 
提示 : RARA., 
2) BB ÆR ERREK., 证明 log(d)<VCdim(B,)<5+ 2log(d), 
提示 : 对 于 上 界 ， 参 考 练 习 10.11. FFA, RE d=2', RABRXd HE 
阵 ， 它 的 列 为 {十 1)* 内 所 有 长 度 为 d 的 二 值 向 量 ，A 的 行 是 本 中 的 有 个 向 量 的 
集合 。 证 明 这 个 集合 可 以 由 卫 上 的 决策 桩 打 散 。 
3) 设 T>1 是 任意 整数 ， 证 明 VCdim(L(B,, T))>0. 5Tlog(d), 


提示 : 根据 上 一 问题 的 短 阵 A 的 行 构建 .党 个 实例 集合 ， 并 且 这 些 矩 阵 的 行为 
DA, GAy HAs »*, A, 证 明 这 个 集合 可 以 被 上 (B,，T) 打 散 。 

用 积分 图 像 快 速 计算 Viola 和 Jones 提出 的 特征 : 设 A 是 表示 一 幅 图 像 的 24X24 的 

矩阵 ， 记 A 的 积分 图 1(A) 为 B 使 得 Bj; = >) A 。 

© 证 明 1(A) 可 由 A 在 线性 于 A 大 小 的 时 间 内 计算 而 得 . 

e 证明 何 种 情况 下 ，Viola 和 Jones 特征 可 由 I(A) 在 常数 时 间 内 计算 而 得 (也 就 是 
说 ， 运 行 时 间 不 依赖 于 定义 特征 的 矩形 的 大 小 ) 。 
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模型 选择 与 验证 





在 之 前 的 章节 中 ， 我 们 描述 了 AdaBoost 算法 ， 并 且 揭 示 了 AdaBoost 算法 中 参数 T 
如 何 控制 偏差 -复杂 度 权衡 。 但 是 实际 问题 中 我 们 如 何 设置 参数 T? 一 般 情 况 下 ， 当 面 对 
实际 问题 ， 我 们 通常 可 以 想 出 几 种 可 能 取得 好 结果 的 算法 ， 每 一 种 算法 可 能 有 几 个 参数 。 
我 们 如 何 为 解决 发 生 在 身边 的 问题 选择 一 种 最 佳 算法 ? 如 何 设置 算法 参数 ? 这 就 是 通称 的 
模型 选择 问题 。 

为 了 说 明 模 型 选择 任务 ， 考 虑 一 维 回 归 函 数 的 训练 问题 ，h: ROR ， 假 定 我 们 获得 如 
图 所 示 的 训练 样本 集 。 





我 们 可 以 用 多 项 式 来 拟 合 这 些 数据 ， 如 第 9 章 描述 的 那样 。 然 而 ， 我 们 不 确定 多 项 式 
次 数 d 为 多 少 会 得 到 最 好 的 结果 。 多 项 式 次 数 太 低 不 能 很 好 地 拟 合 数据 (比如 大 的 拟 合 误 
差 )， 次 数 太 高 则 可 能 会 出 现 过 拟 合 (比如 大 的 佑 计 误 差 )。 接 下 来 我 们 描述 分 别 用 2 次 ，3 
次 ，10 次 多 项 式 来 拟 合同 样 的 数据 集 所 取得 的 结果 。 不 难看 出 ， 经 验 风 险 随 着 多 项 式 次 
数 增加 而 减少 。 然 而 ， 图 可 以 直观 地 告诉 我 们 设置 多 项 式 次 数 为 3 要 比 设置 多 项 式 次 数 为 
LO 更 好 。 也 就 是 说 仅 用 经 验 风 险 来 进行 模型 选择 是 不 够 的 。 





在 本 章 中 我 们 介绍 两 种 模型 选择 的 方法 。 第 一 种 方法 建立 在 7. 2 节 所 描述 的 结构 风险 
最 小 化 原则 之 上 ， 结 构 风 险 最 小 化 在 学 习 算 法 依赖 于 某 一 个 参数 控制 偏差 -复杂 度 权 衡 考 
虑 时 非常 有 用 (比如 前 面 例子 中 拟 合 多 项 式 的 次 数 或 者 AdaBoost 算法 中 的 参数 T) 。 第 二 
种 方法 建立 在 验证 的 概念 之 上 ， 基 本 想法 就 是 将 训练 集 拆 分 成 两 个 集合 ， 一 个 用 于 训练 候 
选 的 模型 ， 为 一 个 用 于 确定 哪 一 个 模型 会 取得 最 好 的 结果 。 

在 模型 选择 任务 中 ， 我 们 尽力 寻找 通 近 误差 和 估计 误差 的 平衡 点 。 通 常 ， 如 果 我 们 的 
学 习 算 法 不 能 找到 一 个 风险 很 小 的 预测 器， 和 弄 清 误差 是 由 过 拟 合 还 是 欠 拟 合 造成 的 是 很 重 
要 的 。 在 11. 3 市 中 我 们 将 讨论 如 何 做 到 这 一 点 。 


11. 1 用 结构 风险 最 小 化 进行 模型 选择 
7.2 六 中 描述 并 分 析 了 结构 风险 最 小 化 原理 。 这 里 我 们 只 讨论 在 事先 没有 设 定 特定 假 
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设 时 ， 如 何 应 用 结构 风险 最 小 化 原理 来 调整 偏差 和 复杂 度 的 权衡 。 取 一 个 可 计算 的 假设 类 
序列 Xi ，K,，ZKH… 例 如 ， 已 提 到 的 多 项 式 回 归 问 题 ， 我们 用 Hs 表示 次 数 至 多 为 d 的 多 项 
式 构成 的 集合 。 另 一 个 例子 ， 如 先前 章节 描述 的 那样 ， 用 Xs 表示 AdaBoost 所 使 用 的 类 L 
(B, d). 
我 们 假定 对 于 任意 d, 2H, 满足 一 致 收敛 属性 ( 见 第 4 章 4.3 EX), RRR ERR 
具有 以 下 形式 : 
mi (ed) < hp og Ia) (11.1) 


这 里 g:N->~ 及 是 单调 递增 函数 。 例 如 ， 对 于 二 分 类 问题 ， 我 们 可 以 用 g(4) 乘 上 一 个 全 局 常 
数 ( 这 个 常数 出 现在 学 习 的 基本 理论 里 ， 详 见 定 理 6. 8) RIRH 类 的 VC 维 。 对 于 Ada- 
Boost 所 使 用 的 类 LOB, d), RM g 只 是 简单 地 随 着 4 增加 。 

回想 结构 风险 最 小 化 规则 遵循 “最 小 化 界 ” 方 法 ,在 这 个 例子 中 ， 对 于 &EN 和 
hEXHs， 最 小 误差 界 为 下 式 成 立 的 概率 不 低 于 1 一 6 


2 
Loti) = Leth 4 BOD RUD | Blogid I login /6)) (11.2) 


这 个 界 直 接 来 源 于 定理 7.4， 它 揭示 了 : 对 于 任意 d 和 hEXH4s， 真 实 风 险 界 取决 于 以 下 两 
项 : 经 验 风险 Ls(h) 和 依赖 于 d 的 复杂 度 表达 形式 。 结 构 风 险 最 小 化 规则 搜索 d Fl © 
Ha， 来 最 小 化 方程 (11. 2). 

回 到 前 面 描述 的 多 项 式 回 归 例 子 ， 尽 管 10 次 多 项 式 的 经 验 风 险 小 于 3 次 多 项 式 的 经 
验 风 险 ， 我 们 仍然 偏好 次 数 为 3 的 多 项 式 ， 因 为 3 次 多 项 式 的 复杂 度 比 10 次 多 项 式 复 杂 
度 低 (复杂 度 由 函数 g(q) 的 值 反 映 )。 

结构 风险 最 小 化 在 多 数 情形 下 都 非常 有 用 ， 但 是 在 很 多 实际 情况 下 方程 (11.2) 给 出 的 
上 界 过 于 悲观 。 在 下 一 小 节 中 我 们 提出 一 个 更 实用 的 方法 。 


11.2 验证 法 

通常 我 们 布 望 能 更 好 地 佑 计 学 习 算法 所 对 应 输出 预测 器 的 真实 风险 。 到 目前 为 止 ， 我 
们 根据 一 个 假设 类 的 估计 误差 建立 界 ， 证 明 对 于 一 个 类 中 所 有 假设 ， 真 实 风险 偏离 经 验 风 
险 不 远 。 尽 管 ， 这 些 界 是 松弛 的 、 翡 观 的 ， 但 是 它 可 以 反映 所 有 假设 和 所 有 可 能 的 数据 分 
布 。 通 过 使 用 一 部 分 训练 数据 作为 验证 集 ， 我 们 能 够 得 到 真实 风险 的 更 精确 估计 ， 在 验证 
集 上 可 以 估计 算法 输出 预测 右 的 有 效 性 ， 这 个 过 程 就 称 为 验证 法 。 

目 然 地 ， 真 实 风 险 的 一 个 更 好 的 估计 对 于 模型 选择 是 非常 有 用 的 ， 我 们 将 在 11. 2. 2 
TPH 


11.2.1 留 出 的 样本 集 


{ATT HU AS h 的 真实 误差 最 简单 的 方式 就 是 对 附加 的 样本 集 采 样 ， 独 立 于 训练 集 ， 使 
用 验证 集 上 的 经 验 错误 作为 估计 器 。 形 式 上 ， 使 用 V 王 (mm ， 让 ) oe, (xn > Ym, ) 表 示 新 
的 m, 样本 的 集合 ， 这 些 样本 从 分 布 D 上 采样 得 到 (训练 集 S 的 m 个 样本 独立 )。 使 用 引 理 
4.5 的 Hoeffding 不 等 式 可 得 : 


定理 11. 1 令 玉 表示 预测 器 ， 假 定 损失 函数 在 [0，1] 上 取 值 ， 则 对 于 任 一 个 SGE 10, 
1)， 选 择 一 个 样本 数量 为 m, 的 验证 集 V 的 概率 不 低 于 1 一 6， 可 得 
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EAA 1, J (2/8) 


定理 11. 1 的 界 不 依赖 于 算法 或 用 于 构建 h 的 训练 误差 集 ， 并 且 比 我 们 目前 为 止 的 
通常 界 更 紧 。 界 更 紧 的 原因 是 在 新 的 验证 集 的 估计 方面 ， 新 的 验证 集 独立 于 有 产生 的 方 
式 。 为 了 说 明 这 一 点 ,假定 通过 在 有 mm 个 样本 的 训练 集 上 应 用 VC AE d 的 假设 类 的 经 验 
风险 最 小 化 预测 器 得 到 有 hh。 然后 ， 从 定理 6. 8 描述 的 学 习 基 本 理论 ， 我们 可 以 获得 下 面 


AW A 
Lp(h) < Ls(h) + ct leg 


这 里 C 是 定理 6. 8 中 出 现 的 常数 。 相 比较 而 言 ， 从 定理 11. 1， 我们 可 以 得 到 下 面 的 界 


inti let + HE 


AK, m, 是 m 的 顺序 ， 我 们 可 以 通过 依赖 于 VC ÆR te SE A a. MARA 
是 ， 它 要 求 在 训练 学 习 需 所 用 样本 之 上 生成 一 个 附加 的 样本 。 

对 训练 集 、 独 立 验 证 集 进 行 采样 ， 这 等 同 于 随机 将 我 们 的 样本 集 拆 分 为 两 部 分 ， 一 部 
分 用 于 训练 ， 男 一 部 分 用 于 验证 。 因 此 ， 验 证 集 通常 称 为 留 出 的 样本 集 。 


11.2.2 模型 选择 的 验证 法 

验证 法 可 以 自然 地 用 于 模型 选择 。 首 先 ， 我 们 在 训练 集 上 训练 不 同 的 算法 (或 者 同一 
个 算法 ， 不同 的 参数 )， 令 姑 == {hi ，…，h,} 表 示 所 有 不 同 算法 输出 预测 器 的 集合 。 例 如 ， 
VARA ASK VAAN BI. 我们 用 A, ear 次 多 形式 回归 的 输出 。 从 姑 中 选择 一 个 预测 器 ， 
采样 一 个 独立 于 训练 集 的 验证 集 ， 最 终 选 择 一 个 在 验证 集 上 误差 最 小 的 预测 器 。 换 句 话 
说 ， 我 们 在 验证 集 上 应 用 经 验 风 险 最 小 化 。 

这 个 过 程 与 学 习 一 个 有 限 假 设 类 非常 相似 。 唯 一 的 不 同 就 是 区 不 是 事先 固定 的 ， 且 更 
依赖 于 训练 集 。 尽 管 ， 由 于 验证 集 独 立 于 训练 集 ， 我 们 得 到 验证 集 也 独立 于 内 ， 因 此 同样 
的 技术 (我 们 用 于 设计 有 限 假 设 类 的 界 ) 也 成 立 。 特 别 地 ， 结 合 定理 11. 1， 我 们 得 到 一 个 联 
合 的 界 : 


定理 11.2 SH=(h, =, 万 } 表 示 一 个 预测 器 的 特定 集合 ， 假 定 损失 函数 在 [0，1]。 
假定 一 个 样本 数量 为 m 的 验证 集 V 与 采样 独立 。 那 么 ， 选 择 V 的 概率 不 低 于 1 一 6， 我们 
得 到 


a /2 gk /6) 


这 个 理论 告诉 我 们 ， 只 要 姑 不 太 大 ， 验 证 集 的 错误 就 会 近似 真实 误差 。 但 是 ， 如 
果 我 们 尝试 更 多 的 方法 (结果 是 | 姑 | 与 验证 集 的 样本 数量 强 相关 )， 就 会 有 过 拟 合 的 
风险 。 

为 了 说 明 验 证 如 何 对 模型 选择 起 作用 ， 重 新 思考 本 章 开头 描述 的 一 维 多 项 式样 本 拟 
合 。 接 下 来 描述 同样 的 训练 集 ， 次 数 为 2，3，10 的 经 验 风 险 ， 但 是 这 次 我 们 也 描述 一 
个 附加 的 验证 集 ( 用 空心 圆 标 记 )。10 次 多 项 式 有 最 小 的 训练 误差 ， 然 而 3 次 多 项 式 有 
最 小 的 验证 误差 ， 因 此 3 次 多 项 式 被 选 为 最 佳 模型 。 
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11.2.3 ”模型 选择 曲线 


模型 选择 曲线 显示 训练 误差 和 验证 误差 作为 一 个 模型 考虑 的 复杂 度 函 数 。 例 如 ， 对 于 
先前 提出 的 多 项 式 拟 合 ， 曲 线 看 起 来 如 下 : 
aid . a 训练 
—o— 验证 
0.3 


从 上 图 可 以 看 出 ， 随 着 多 项 式 次 数 的 增加 ， 训 练 误差 单调 下 降 ( 此 例 中 表示 样本 复杂 
度 )。 男 一 方面 ， 验 证 错误 先 下 降 后 上 升 ， 这 表示 模型 开始 被 过 拟 合 损害 。 
画 出 曲线 图 能 帮助 我 们 知道 所 搜索 的 参数 空间 机 制 是 否 正确 。 通 常 不 只 一 个 参数 要 优 
化 ， 参 数 的 取 值 也 可 能 非常 大 。 比 如 ， 在 第 13 章 中 我 们 描述 了 正则 项 的 概念 ， 其 中 学 习 
118] 算法 的 参数 是 实数 。 在 这 种 情况 下 ， 一 种 粗略 的 网 格 搜索 参数 S 的 值 ， 绘 制 相应 的 模型 选 
择 曲线 。 我 们 将 基本 曲线 缩放 到 正确 的 太 度 ， 然 后 采用 更 好 的 网 格 搜索 。 验 证 我 们 使 用 的 
机 人 制 是 否 正确 非 党 重要。 比如， 在 多 项 式 拟 合 问题 的 描述 ， 如 果 我 们 开始 搜索 多 项 式 次 数 
(1，10，20} 人 集合， 但 是 没有 和 采用 一 个 基于 正确 结果 曲线 的 网 络 搜索 ， 最 终 会 得 到 一 个 较 
差 的 模型 。 


11.2.4 K 折 交叉 验证 


到 目前 为 止 ， 所 描述 的 验证 程序 假定 数据 是 足够 大 的 ， 并 且 我 们 有 能 力 对 一 个 新 的 验 
证 集 采 样 。 但 是 在 一 些 应 用 中 数据 很 少 ， 我 们 不 想 将 数据 浪费 在 验证 集 上 。 & 折 交叉 验证 
技术 正 是 为 在 不 浪费 太 多 数据 的 情况 下 ， 精 确 估计 真实 误差 而 设计 。 

在 & 折 交叉 验证 中 ， 将 原 训 练 集 拆 分 为 样本 数量 为 m/k 的 & 折 样 本 子 集 (简单 起 见 ， 
假定 m/k 是 一 个 整数 ) 。 对 于 每 一 折 样 本 ， 这 个 算法 是 在 其 他 折 样 本 的 联合 样本 上 训练 ， 
然后 由 这 一 折 的 样本 上 估计 输出 的 错误 。 最 终 ， 所 有 误差 的 平均 即 为 真实 误差 的 估计 。 特 
殊 情 形 k=m, 3X m 表示 样本 数量 ， 这 种 方法 称 为 留 一 验证 法 (LOO) 。 
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k 折 交 叉 验 证 经 常用 于 模型 选择 (或 参数 优化 ) ， 并 且 一 旦 选择 了 最 好 的 参数 ， 这 个 算 
法 被 限制 使 用 这 组 最 优 的 参数 在 整个 训练 集 上 。& 折 模 型 选择 交叉 验证 的 伪 代 码 给 出 如 
下 。 这 个 过 程 输入 训练 集 S$， 可 能 的 参数 集合 8， 整 数 &( 表 示 折 数 )， 以 及 一 个 学 习 算 法 
ACA 输入 一 个 训练 集 和 参数 9€8)。 它 输出 整个 训练 集 上 由 此 参数 训练 过 的 最 佳 的 参数 和 
假设 。 


k 折 交 叉 验证 用 于 模型 选择 

输入 : . 

训练 集 S 二 (Xi， y) 9 

参数 值 集合 O 

学 习 算 法 A 

整数 上 
拆 分 : 将 STA Si, Sz, ese 
wWFHE—T ICO 

IER i=l, +, k 

h= AlS S 6) 


k 
error(0) = Z D) Ly Chio) 
i=] 
输出 : 


0* =argmin,| error(0) | 
ho" = A (S; 0” ) 





实践 中 ， 交 又 验证 方法 通常 取得 很 好 的 效果 。 尽 管 它 也 有 可 能 失败 ， 像 练习 11.1 所 
示 的 人 工 训 练 一 样 。 严 格 来 说 ， 理 解 交 叉 验 证 的 精确 行为 仍 是 一 个 有 争议 的 问题 。1978 
年 ，Rogers 和 Wagner 的 研究 显示 & 个 局 部 规则 (比如 19 章 的 & 近 邻 )， 交 叉 验 证 程序 给 
出 真实 错误 的 好 的 估计 。 一 些 研究 显示 交叉 验证 对 稳定 算法 非常 有 效 (在 13 章 中 ， 我 们 将 
学 习 稳 定性 和 相关 的 可 学 习性 ) 。 


11.2.5 训练 -验证 -测试 拆 分 


大 多 数 实际 应 用 中 ， 我 们 将 可 利用 的 样本 拆 分 成 3 个 集合 。 第 一 个 集合 用 于 训练 我 们 
的 算法 ， 第 二 个 集合 用 于 模型 选择 的 验证 数据 集 。 选 择 最 优 模型 后 ， 我 们 在 第 三 个 数据 集 
上 测试 输出 预测 右 的 性 能 ， 第 三 个 数据 集 我 们 称 之 为 测试 数据 集 。 测 试 集 上 的 测试 结果 被 
用 于 估计 学 习 预 测 絮 的 真实 错误 。 


11.3 ”如 果 学 习 失 败 了 应 该 做 什么 

试想 下 面 的 场景 ， 当 你 接 到 一 个 学 习 任务 ,需要 选择 一 个 假设 类 、 一 个 学 习 算 法 和 参 
数 来 想 办 法 解决 它 。 你 使 用 一 个 验证 集 来 优化 参数 并 在 测试 数据 集 上 测试 学 习 预 测 器 。 不 
幸 的 是 ， 测 试 结果 并 不 令 人 满意 。 那 么 问题 在 哪里 ， 我 们 接 下 来 应 该 怎么 做 呢 ? 

很 多 因素 是 已 知 的 。 主 要 方法 如 下 : 

o 增 大 样本 集 

o 改变 假设 类 
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m 扩大 假设 类 
缩减 假设 类 
a 彻底 改变 它 
四 改变 参数 

o 改变 数据 的 特征 表示 

o 应 用 学 习 规 则 改变 优化 算法 

为 了 找到 最 好 的 改进 策略 ， 首 先 ， 理 解 损坏 性 能 的 原因 非常 重要 。 回 想 第 5 章 我 们 将 
学 习 预 测 器 的 真实 误差 分 解 为 近似 误差 和 估计 误差 。 对 于 h* C argminlo (A), 近似 误差 定 
义 为 Lp (h* )， 佑 计 误 差 定义 为 Lp (hs) 一 Lp bh"), XE hs 表示 学 习 预 测 器 (建立 在 训练 
ESZE). 

类 的 近似 错误 不 依赖 于 样本 数量 或 所 使 用 的 算法 。 它 只 依赖 于 分 布 D 和 假设 类 戏 。 因 
此 ， 如 果 近 似 误 差 太 大 ， 它 将 不 会 帮助 我 们 扩大 训练 样本 数量 ， 而 且 对 于 降低 假设 类 没有 
意义 。 在 这 种 情况 下 ， 扩 大 假设 类 或 将 其 彻底 改变 是 有 用 的 (如 果 我 们 通过 不 同 的 假设 类 
形式 有 一 些 可 选 的 先 验 知识 ) 。 我 们 能 考虑 应 用 同样 的 假设 类 ， 但 是 应 用 数据 的 不 同 的 特 
征 表示 ( 详 见 第 25 F). 

类 的 错误 估计 强烈 依赖 于 样本 数量 。 因 此 ， 如 果 有 大 的 估计 错误 ， 我们 可 以 努力 获取 
更 多 的 训练 样本 。 我 们 也 可 以 考虑 减少 假设 类 。 但 是 ， 在 这 种 情况 下 ， 它 对 于 扩大 假设 类 
没有 什么 意义 。 

1. 使 用 验证 分 解 误差 

弄 清 问题 是 近似 误差 还 是 估计 误差 ， 对 于 找到 最 好 的 改进 策略 是 非常 重要 的 。 在 先前 
的 章节 中 我 们 看 到 如 何 通 过 在 验证 集 上 使 用 经 验 风 险 估计 Lp (hs)。 但 是 ， 估 计 类 的 近似 
错误 更 加 困难 。 替 代 的 方法 是 ， 我 们 给 出 一 个 不 同 的 误差 分 解 ， 这 种 分 解 可 以 从 训练 集 和 
测试 集 估 计 得 到 。 

Lp(hs) = (Lp (hs) — Ly (hs)) + (Ly (hs) — Ls (hs)) + Ls (hs) 

第 一 项 Lp (hs) 一 Lv(hs) 可 以 使 用 定理 11.1 建立 一 个 很 紧 的 界 。 简 单 而 言 ， 当 第 二 项 
Lv(hs) 一 Ls(hs) 较 大 时 ， 我 们 称 算法 由 于 过 拟 合 而 损害 了 效果 ， 当 经 验 风 险 较 大 时 ， 我 们 
说 算法 由 于 欠 学 习 而 受 损 。 注 意 到 这 两 项 不 是 必要 的 估计 误差 和 近似 误差 的 好 的 估计 。 为 
了 说 明 这 一 点 ， 考 虑 这 种 情况 ,ZX 类 有 VC 维 &， 了 是 一 个 分 布 ， 戏 关于 刀 的 近似 误差 是 1/4。 
只 要 训练 样本 的 数量 小 于 4， 对 于 每 个 经 验 误 差 最 小 化 假设 ,我 们 将 得 到 Ls(hs) 二 0。 因 
此 ， 训 练 风险 Ls (hs) 和 近似 误差 Loh ) 有 本 质 的 不 同 。 但是, 像 我 们 后 面 将 看 到 的 ， 
Ls(hs) 和 Lv(hs) 一 Ls(hs) 将 提供 有 用 的 信息 。 

首先 考虑 Ls (hs) 很 大 ， 我 们 将 Ls (hs) 写 成 

Ls(hs) = (Ls(hs) — Ls(h" )) + (Ls(h’)—Lop(h’))++Lo(h’) 

“hs 是 经 验 风 险 最 小 化 假设 ， 我 们 有 Ls (hs) —Ls(h* <0, Jab, FA A" 不 依赖 于 
S, Ls(h* ) 一 Lp (h*  ) 项 能 够 得 到 一 个 更 紧 的 界 ( 如 定理 11.1 所 示 )。 最 后 一 项 是 近似 误 
差 。 接 下 来 如 果 Ls(hs) 很 大 ， 则 近似 误差 会 很 大 ， 失 败 算 法 的 改进 应 该 有 相应 的 设计 ( 像 
先前 讨论 的 那样 ) 。 

评注 ”类 的 近似 误差 可 能 很 小 ， 但 是 Ls (hs) 值 很 大 。 例 如 ， 我 们 在 执行 经 验 风 险 最 
小 化 时 可 能 碰 到 误差 ， 这 个 算法 返回 假设 hs 它 不 是 经 验 误差 最 小 化 。 经 常会 出 现 经 验 误 
差 最 小 化 计算 困难 ， 我 们 的 算法 使 用 一 些 启 发 式 算法 尝试 找到 一 个 近似 的 经 验 误差 最 小 
化 。 在 一 些 情况 下 ， 很 难 知道 hs 与 经 验 风 险 最 小 化 假设 的 接近 程度 。 但 至 少 我 们 知道 它 
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们 是 否 是 好 的 假设 。 例 如 ， 在 下 一 章 ， 我 们 将 研究 凸 学 习 问 题 ， 优 化 条 件 就 是 优化 算法 是 
否 能 够 优化 到 经 验 风 险 最 小 化 。 在 其 他 情况 下 ， 这 种 解决 方案 依赖 于 算法 的 随机 初始 什 ， 
所 以 我 们 随机 选择 不 同 的 初始 值 以 确实 是 否 能 发 现 更 好 的 解决 方案 。 

下 面 考虑 Ls (hs) 很 小 的 情况 。 根 据 我 们 之 前 讨论 的 ， 近 似 误差 小 不 是 必要 的 。 的 确 ， 
考虑 这 两 个 场景 ， 我 们 都 使 用 经 验 风险 最 小 化 学 习 规 则 ， 尽 力学 习 VC 维 为 & 的 假设 类 。 
在 第 一 个 场景 ， 我们 有 一 个 样本 数量 为 md 训练 集 ， 并 且 类 的 近似 误差 很 大 。 在 第 二 个 
场景 ， 我 们 有 一 个 样本 数量 为 m>2d 训练 集 ， 并 且 类 的 近似 误差 为 0。 在 两 个 场景 中 
Ls (hs) 二 0， 我 们 怎样 区 分 这 两 个 场景 呢 ? 

2. 学习 曲线 

区 分 这 两 种 场景 的 一 个 可 行 方式 是 绘制 学 习 曲 线 。 为 了 获得 学 习 曲 线 ， 我 们 让 样本 在 
数量 不 断 增 加 的 无 前 缀 数据 集 上 训练 算法 。 例 如 ， 首 先 ， 我 们 训练 样本 集 的 前 10%, Ria 
训练 样本 集 的 20%， 以 此 类 推 。 对 每 一 个 前 级 ， 我 们 计算 训练 错误 (在 这 个 前 级 上 训练 算 
法 ) 和 验证 错误 (在 一 个 提前 定义 的 验证 集 上 )。 这 样 的 学 习 曲 线 能 帮 我 们 区 分 先前 提 到 的 
这 两 个 场景 。 在 第 一 个 场景 中 ， 我 们 期 望 验证 集 错 误 近 似 所 有 的 前 缀 的 1/2， 而 我 们 没有 
真正 学 到 什么 东西 。 在 第 二 个 场景 中 ， 验 证 错误 将 从 常数 开始 ， 然 后 开始 下 降 ( 当 训练 样 
本 数量 大 于 VC 维 时 ,误差 开始 下 降 )。 这 两 种 情况 可 用 图 11. 1 说 明 。 

误差 





验证 错误 
=. 2 2 2 
© © 


训练 错误 





图 11.1 学 习 曲 线 的 例子 。 左 图 : 学 习 曲 线 与 场景 相关 ， 在 这 些 场景 中 ， 样 本 数量 通常 比 类 的 VC 维 
小 。 右 图 : 学 习 曲 线 与 场景 相关 ， 在 这 些 场景 中 ， 近 似 错误 是 0， 样本 数量 比 类 VC 维 大 


通常 情况 下 ， 只 要 近似 误差 大 于 0， 训 练 误差 就 会 随 样本 数量 而 增加 ， 但 数据 量 过 大 
使 得 很 难 对 这 些 给 出 一 个 解析 。 因 此 数据 量 越 大 ， 越 难 给 出 完整 的 解析 。 男 一 方面 ， 验 证 
错误 随 着 样本 数量 增加 逐渐 减 小 。 如 果 VC 维 是 有 限 的 ， 当 样本 数量 达到 无 限时 ， 验 证 误 
差 和 训练 误差 收敛 到 一 个 近似 误差 。 因 此 ， 通 过 推断 训练 和 验证 曲线 我 们 尽力 猜测 近似 误 
差 的 值 ， 或 者 至 少 得 到 一 个 近似 误差 大 概 区 间 的 估计 。 

回 到 为 失败 算法 寻找 最 好 改进 方法 的 问题 ， 如 果 Ls (hs) 很 小 ， 但 是 验证 误差 很 大 ， 
那么 在 这 种 情况 下 类 ZX 的 训练 误差 集 是 不 够 的 。 此 时 可 以 画 出 学 习 曲 线 。 如 果 验 证 误差 开 
始 下 降 ， 那 么 最 好 的 解决 方案 是 增加 样本 数量 (如 果 我 们 可 以 扩大 数据 ) 。 另 一 个 合理 的 解 
决 方案 就 是 减少 假设 类 的 复杂 度 。 男 一 方面 ， 如 果 验 证 集 错误 保持 在 1/2 左右 ， 那 么 我 们 
没有 证 据 表 明 X 的 近似 错误 已 经 足够 好 。 此 时 增 大 训练 集 可 能 根本 没有 帮助 。 获 得 更 多 的 
数据 仍 能 帮助 我 们 ， 因 为 在 这 个 点 上 ， 我们 可 以 看 到 验证 错误 是 否 开始 下 降 ， 训 练 误差 是 
否 开始 增加 。 但 是 ， 如 果 获 得 更 多 数据 代价 很 昂贵 ， 最 好 首先 尽力 降低 假设 类 的 复杂 度 。 

总 结 以 上 的 讨论 ， 应 该 采取 以 下 步 又; 

D 如 采 学 习 包 括 参数 优化 ， 画 出 模型 选择 曲线 来 确认 你 已 经 近似 优化 参数 ( 详 
M IL 2. 37): 

2) 如 采 扩 大 假设 类 ， 训 练 误差 特别 大 ， 那 就 彻底 改变 它 ， 或 者 改变 数据 的 特征 表示 
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方法 。 
3) 如 果 训 练 误 差 很 小 ， 画 出 学 习 曲 线 ， 尽 力 推断 误差 是 来 源 于 估计 误差 还 是 近似 
误差 。 

4) 如 果 近 似 误差 看 起 来 足够 小 ， 尝 试 获 得 更 多 的 数据 。 如 果 这 不 太 可 能 ,我们 则 考 
虑 减少 假设 类 的 复杂 度 。 

5) 如 果 近 似 误差 很 大 ， 尝 试 改变 假设 类 或 者 彻底 改变 特征 表示 方式 。 
11.4 小 结 

模型 选择 的 任务 就 是 基于 数据 本 身 选 择 一 个 近似 学 习 模 型 。 我 们 揭示 了 如 何 使 用 结构 


风险 最 小 化 原理 或 者 更 实用 的 验证 方法 做 到 这 一 点 。 如 果 学 习 算 法 失败 了 ， 应 该 使 用 学 习 
曲线 来 分 解 算法 的 误差 ， 以 便 找 到 最 佳 改 进 方 法 。 


11.5 练习 


11.1 天 折 交 叉 验证 失败 ”试想 根据 PLy=1]=PLy=0]=1/2 随机 选择 标签 的 情形 。 取 一 
个 学 习 算 法 ， 如 果 训 练 集 标 签 是 1， 则 输出 常数 预测 值 h(x) = 1; 其 他 情况 下 算法 
输出 的 常数 预测 h(x) 二 0。 证 明 ， 在 这 种 情况 下 ， 留 一 验证 估计 误差 和 真实 误差 之 
差 总 是 1/2。 
11.2 SH, oy He FER 个 假设 类 。 假 定 给 你 mm 个 独立 同 分 布 的 训练 样本 ,并且 你 想 学 
习 类 XH 一 UH， 考虑 两 个 可 选 的 方法 : 
o 使 用 经 验 风 险 最 小 化 规则 ， 在 mm 个 样本 上 学 习 H。 
© 将 m 个 样本 拆 分 为 样本 数量 为 (1 一 a)m 的 训练 样本 和 样本 数量 为 am 的 验证 集 ， 
aE (0，1)。 然 后 ， 应 用 基于 验证 的 模型 选择 方法 ， 即 ， 首 先 使 用 关于 XH; 的 经 验 
风险 最 小 化 规则 ， 在 (1 一 a)m 个 训练 样本 上 训练 类 XH;。 令 所 ，…， 凡 表示 结果 假 
设 。 然 后 ， 在 am 个 验证 样本 集 上 ， 在 有 限 类 {加 ，…， 扩 } 上 应 用 经 验 风 险 最 小 
化 原则 。 
描述 第 一 个 方法 优 于 第 二 个 方法 的 情景 ， 并 描述 第 二 个 方法 优 于 第 一 个 方法 的 
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凸 学 习 问 题 





本 章 主要 介绍 凸 学 习 问 题 。 绝 大 多 数 可 以 有 效 学 习 的 问题 属于 凸 学 习 的 范畴 ， 所 以 串 
学 习 问 题 包含 着 一 系列 重要 的 学 习 问 题 。 例 如 ， 我 们 已 经 遇 到 的 具有 平方 损失 和 逻辑 斯 谤 
回归 的 线性 回归 问题 都 是 凸 问 题 ， 并 且 这 些 问题 的 确 可 以 被 有 效 地 学 习 。 此 外 ， 我 们 也 看 
到 一 些 非 凸 的 问题 ， 如 半空 间 的 0 一 1 损失 问题 ， 在 不 可 分 的 情形 中 ， 在 无 法 实现 的 情况 
下 ， 计 算 学 习 该 问题 是 比较 困难 的 。 

通常 ， 一 个 凸 学 习 问 题 的 假设 类 是 一 个 凸 集 ， 并 且 对 于 每 一 个 样本 而 言 ， 它 的 损失 荫 
数 是 一 个 凸 函 数 。 本 章 从 上 同性 的 一 些 必要 的 定义 讲 起 。 除 了 凸 性 ， 还 将 定义 损失 消 数 的 其 
他 性 质 ， 如 利 普 希 欧 性 、 光 滑 性 ， 这 些 性 质 能 帮助 我 们 成 功 地 学 习 。 接 下 来 ， 定 义 凸 学 习 
问题 ， 并 说 明 进 一 步 约 束 的 必要 性 ， 如 有 界 性 、 利 普 希 次 性 或 光滑 性 。 我 们 定义 这 些 更 加 
受 限 的 学 习 问 题 ， 并 断言 凸 光滑 / 利 普 希 获 有 界 的 学 习 问 题 是 可 学 习 的 。 我 们 将 在 后 面 的 
两 章 证 明 这 些 断 言 ， 并 给 出 两 种 学 习 范 例 ， 这 两 种 范例 可 以 成 功 地 学 习 所 有 的 凸 利 普 希 次 
A F a A A Ft A) el 

最 后 ， 我 们 将 在 12. 3 Pw G0 fil ae aE A I ENT PR OK Ach E — HE SE i FT] 
ml, BURA AIA ea CSE SAY. BARR RAR 4S BA A AE. EE BE hg 
3J BN AS PHU AE A AUB - 


12.1 四 性 、 利 普 希 次 性 和 光滑 性 
12.1.1 ate 
定义 12. 1( 西 集 ) 设 C 是 向 量 空间 的 一 个 集合 ， 若 对 C 中 任意 两 点 下 和 zi， 连接 它们 


的 线段 仍 在 C 中 ， 那 么 集合 C 是 一 个 凸 集 ; 换言之 ， 对 任 一 实数 weEL0，1]， 都 有 ou 十 
(l—a)vEC, 


下 图 给 出 的 是 了 PORAE SRA ILS. MTSE MS. RA RARE 
在 集合 中 。 


非 凸 集 凸 集 


SY OY 


给 定 a€E[0，1]，o 十 (1 一 a)w 称 为 u 和 w 的 西 组 合 。 
定义 12.205 BH) 设 C 是 一 个 凸 集 ， 如 果 对 任意 的 u，vEC 及 aE[0，1]， 通 数 
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f: CR aX 
flu +1 —a)v) Kaf lu) +1 —a) flv) 
则 称 f AC bh HH. 


换 句 话说 ， 对 于 任意 的 & 和 zwm， 如 果 函 数 f 在 u Alo 之 间 的 图 形 位 于 连接 (wu) 和 f(v) 
的 线段 的 下 方 ， 那 么 ELKA FRM See f: RR 的 几何 解释 。 










af (u) + (1 — a) f (v) 


f(au + (1 — ajv) 


au+(l—a)v 
函数 f 的 上 境 图 (epigraph) 是 集合 
epigraph(f) = ((x,8): f(x) <B} (12. 19 
容易 证 明 函 数 f BOM 4AM4EHN ERATOR. PRAYED eee f: RR 
125] ”以 及 它 的 上 境 图 。 
f(x) 


fh PR A — 7S ee BE J EE BY Ba Se IME EERME. 1 Blu, r)={ 2: 
| v—ul] <r} EDA 为 球 心 > 为 半径 的 球 。 如 果 存 在 某 个 r>0 使 得 对 于 任意 的 0 © 
Bu, NAA f(v) 宇 f(u)， 那 么 我 们 说 fw se f E u 处 的 一 个 局 部 极 小 值 。 于 是 ， 对 于 任意 
的 v( 不 一 定 在 B 中 )， 存 在 一 个 充分 小 的 a 二 0 使 得 wu 十 a(v 一 w) EC Btu, r), 并且 成 立 


fu) s flu+alv—a)) C122) 

如 果 f 是 凸 的 ， 那 么 
futalv—u)) = flw + —au) < 1—a) fw +af(v) (12.3) 
由 式 (12.2) 和 式 (12. 3) 可 得 f(w) 夺 A(v)。 由 于 该 式 对 每 一 个 v 都 成 立 ， 所 以 f(w) 是 f 的 


一 个 全 局 极 小 值 . 

凸 隐 数 为 一 个 重要 的 性 质 是 对 每 一 个 w， 我 们 可 以 构造 f 在 w 处 的 切线 ， 该 切线 始 
终 位 于 函数 f 的 下 方 。 如 果 f 是 可 微 的， 那么 该 切线 是 一 个 线性 函数 Lu) = f(w) 十 
(ViCw), u—w), HPV Cw) RIR f E w 处 的 梯度 ， 即 f 的 偏 导数 向 量 Vf Cw) = 


a OR). a CE E 
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Vu, fu) > fw) + (Vfw), u— w) (12. 4) 
在 第 14 章 中 ， 我 们 将 把 该 不 等 式 推广 至 不 可 微 函 数 。 下 面 给 出 了 (12. 4) 式 的 图 解说 明 。 





如 果 太 是 一 个 可 微 的 标量 函数 ， 那 么 可 以 验证 它 也 是 一 个 耳 函 数 。 

引 理 12.3 i f: R-> 了 是 一 个 二 阶 可 微 的 标量 函数 ， 户 和 矿 分 别 表 示 函 数 f 的 一 阶 
导 和 二 阶 导 函数 ， 那 么 下 面 的 命题 是 等 价 的 : 

1. fx"; 

2. 了 是 单调 不 减 的 ; 

3. AEA., 


o 标量 函数 f(z) 二 x? 是 凸 的 。 注 意 到 需 知 (x) 二 2x Ml f"(x)=2>0, 
o 标量 函数 f(a) = 二 log (1 十 exp(x)) 是 凸 的。 注意 到 需 知 Ft ae ra 


一 因为 指数 函数 是 一 个 单调 递增 的 函数 ， 所 以 f(x) 是 一 个 单调 递增 
exp(—x) +1 


AY) eR AY al 
“PB AY BT A Pe — 1) hp at eR A PZ HE eR EY ZA 18 Bl A et — 7 [et (Be 


论断 12.4 假设 对 于 某 个 xXE 开 yERF g: RoR. BRS: K>R TASA f(w)= 
gw. x) +y), PA g 的 凸 性 蕴含 着 f HOH, 


WEAR it wi, w2€R’, aE. 1], m 
f(aw, + 1 —a)w2)= g(lawı + (1—a) w2,x) +y) 
= gla(wi sx) + (1—a)(w2,x) + y) 
= gla((wi sx) +y) + (1 —a) (w2,x) + y)) 
< ag((wi»x) +y) + 1 —adg((w2.x) +y) 
其 中 最 后 一 个 不 等 式 由 g 的 凸 性 得 到 ， = 


o He xCR 和 yER， 设 f(w)=Cw, x)— y) 是 定义 在 R 上 的 实 函 数 ， 那 么 f 
EKR g (a) =a 在 线性 函数 上 的 一 个 组 合 ， 上 且 f 是 凸 的 。 

o 给 定 xER 和 yE{ 士 1}， 设 f(w)=log(1t+exp(— ylw, x) BEV R EWE 
KZ IBA 上 是 函数 g(a) 王 log(1 十 exp(a)) 在 线性 函数 上 的 一 个 组 合 ， 且 f 是 
凸 的 。 

下 面 的 论断 表明 凸 函数 的 最 大 化 是 是 的 ; 加 权 的 凸 函 数 的 和 也 是 凸 的 。 
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论断 12.5 设 fi: Ri>R Æ h HR, i=l, sety: y 那么 下 面 定义 在 朴 上 的 实 函数 也 
Hee vy HAR, 
e gC(x)=maxf: (z) 
& g(a) = > wifi(z) ` 其 中 对 于 任意 的 £5 w,—0,. 
i=] 
证 明 
(1) 
glau + (1 —a)v)= maxf; (au + (1 —a@)v) 
< max[af;(u) + (1 —a) fi(v) J 
<a maxf;(u) + (1 —a@) maxf;(v) 
< ag(u) + 1 —a) gv) 
CEJ 
glau + (1—a)v)= Dwif Cau + 1 —a)v) 


= > wilaf w) 十 (1 一 a)f;(v)] 
Sad wifi (u) + —a) 2 wif iv) 
ag(u)t (1—a) gv) E 


PRM g(Cz) 王 |z| E. ERA e(z)=maxiz, —x}, ARMS (x)= 
ZX 和 f(x) 二 一 xz 都 是 凸 的 。 < 


12.1.2 利 普 希 茨 性 

利 普 硕 获 性 的 定义 是 在 R 空间 上 对 欧 氏 范 数 而 言 的 。 然 而 ， 我 们 可 以 定义 关于 任意 
范 数 的 利 普 硕 次 性 . 
| fC w.)— fCw2)||<pl wi— w2 ||, BA f 是 p- 利 普 希 茨 。 

百 观 地 说 ， 一 个 利 普 希 菊 函数 不 会 变化 太 快 。 如 果 函 数 f: 及 -> 了 是 可 微 的 ， 那 么 由 
中 值 定 理 可 知 - 

f (wi ) — f(vw,) — f (ua) lw — w ) 

Hp u MEF w Aw, 之 间 。 由 此 断定 ， 如 果 f 的 导数 按 绝对 值 处 处 以 6 为 界 ， 那 么 函数 f 
是 o- 利 普 希 次 。 


e AM jz) 王 | 并 在 及 上 是 1- 利 普 希 茨 的 。 这 个 可 以 由 三 角 不 等 式 推 得 ， 对 于 每 个 
Tis 229 有 
lar |— | ae |= |z — z: +22|— lza lz mz |z: |—|ae| = |x, — z | 


进一步 ， 得 | | x | — | x | | =| aa |. 
@ pM jz) 王 log(1 十 exp(Cz)) 在 月 上 是 1- 利 普 希 茨 的 。 注 意 到 
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) = exp(z) j 1 ay 
Peel br ee ae 


o 对 于 任意 的 op， 函数 f= 二 x? 在 及 上 不 是 p- 利 普 希 奖 。 令 zi 一 0，Z2 一 1 十 o， 那 么 
fla) — flxi) = A+)? > pAtp) = plž: — ži | 
然而 ， 该 函数 在 集合 C= (x: |z| <02) LÆ po- 利 普 硕 菊 。 注 意 到 ， 对 于 任意 的 
Tis TEL 有 
| xi — z |= | x + 22 | | zi — 22 |= 2(p/2) | xı — T2 | = plz — ime | 
o f ER 上 的 实 线性 函数 ， 定 义 为 f(w)=(v, wtb, HP v€ER 是 上 v|- 利 普 希 
茨 的 。 由 柯 西 - 施 瓦 茨 不 等 式 ， 得 
| fw) — fw) | = |v, w — w) |< | oll | w — w: | 
PB a 6 bore BH A ES is PRIA 2 RAHKAA CE < 
论断 12.7 设 f(x) 二 gi(gz(X))， 其 中 gi BOAR, g 是 pz- 利 普 希 蒋 ， 那 么 
厂 是 (ploy)- 利 普 希 英 。 特 别 地 ， 如 果 gs 是 线性 函数 ， 对 于 VER, VER, g-o(x)=—(v, x)+ 
b, MA f 是 (pi 上 vl)- 利 普 希 英 。 


证 明 
| fwi) — fw) |= | gı (g2(wi)) 一 8 (g: Cw2)) | 
< pı | gz C1w1) — g: (w2) | 
< mp |w 一 zz| 出 
12.1.3 ”光滑 性 


光滑 函数 的 定义 依赖 于 梯度 的 概念 。 可 微 函 数 S: 梧 一 有 在 zw 处 的 梯度 是 f 的 偏 导 
定义 12.8( 光 滑 性 ) 如 果 可 微 函 数 f: PROBE 8- 利 普 希 蒋 ， 即 对 于 所 有 的 
2， 九 ， 满 足 |YFo) 一 VF(a)| 委 8 一 |  ， 那 么 是 B- 光 滑 。 
可 以 看 出 光滑 性 意味 着 对 于 所 有 的 uw，w， 有 
Flo) < fw) + Vfw), v—w) +È |v- wl (12. 5) 


注意 到 婧 数 f 的 凸 性 意味 着 f(v) 宇 f(w) 十 (Vf(w)，v 一 w)。 所 以 ， 当 一 个 函数 既是 又 
光滑 的 时 候 ， 我 们 可 以 同时 得 到 函数 与 其 一 阶 近似 差 值 的 上 下 界 。 


令 式 (12.5) 右 端的 v=w—5Vf (w), 可 得 


[Vfw |? < fw) — fv) 
进一步 ， 假 设 对 于 所 有 的 v 有 Fo) 三 0， 那 么 可 以 推断 光滑 性 也 意味 着 


| VCw) |? < 28F Cw) (12. 6) 
满足 这 个 性 质 的 函数 也 称 为 自 有 界 (self-bounded) 函数 。 


® 函数 f(x) 二 zx? 是 2- 光滑 。 注 意 到 f(x) 一 2r+， 且 对 这 个 特殊 的 函数 ， 式 (12. 5) 与 
式 (12. 6) 都 以 等 式 成 立 。 
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ra J l 
o K F(z) 王 log(1 十 exp(z)) 是 (1/4)- 光 滑 。 注 意 到 f 人 一 于 是 


/ exp(— 2) l 
|F | (1 + exp(— py Gt exp(— x))(1+ exp(x)) ~ = 1/4 
因此 ， 太 是 (1/4)- 利 普 希 茨 。 由 于 该 函数 非 负 ， 所 以 式 (12. 6) 也 成 立 。 < 


PAY Te HA SI AY tot PEE PE ZA A A IE 

论断 12.9 设 f(w)—g(iw, x)+bd), EP HK g: R-RXPHMR, xCR’. OER, 
那么 f 是 (Bx|?)- 光 滑 。 

WEAR ”由 链 式 规则 得 VfCw) 二 g'(《w，x) 十 b)x， 其 中 g' 是 g 的 导数 。 利 用 g 的 光滑 


性 和 柯 西 - 施 瓦 次 不 等 式 ， 得 


fCo)= g(usx) Fb) 
< g((w,x)+6)+g2'((w,x) +b)(v— wx) +E (<v—w,x))’ 


< g((w.x) +b) +g (wx) +6)v— wx» +4 lo — wl || x|] >? 


2 
< flw) tv vw) +e | y — wl m 


© FRA xCR’, yER, K f(w)=Cw, x)—y)?, FE SHB |x| 588. 
e@ 对 于 任意 的 xERR，yE( 土 1),  flw)=log(1t+exp(—yiw, x))), FE fE 
(|xl?/4)- 光 滑 。 ~“ 


12.2 凸 学 习 问题 概述 

注意 到 学 习 的 一 般 性 定义 (第 3 章 定 义 3.4) 包 含 着 三 个 要 素 : 假设 类 丸 ， 样 本 集 Z 和 
损失 函数 2: HXZ>R 。 到 目前 为 止 ， 本 书 主要 考虑 Z 是 一 个 实例 空间 和 一 个 目标 空间 
的 乘积 ， 即 Z=V XY, HK 是 从 到 站 的 函数 集合 。 然 而 ,HK 可 以 是 任意 的 集合 。 在 这 一 章 
中 ,我们 考虑 区 部 是 欧 几 里 得 空间 R 的 子 集 。 也 就 是 说 ， 每 个 假设 是 某 个 实 值 向 量 。 所 
以 ,我们 可 以 将 和 # 记 为 w。 现 在 ,我 们 终于 可 以 定义 凸 学 习 问 题 了 。 


定义 12. 10( 丁 学习 问题 ) 如 果 假 设 类 戏 是 西 集 ， 且 对 于 任意 的 <EZ， 损 失 函 数 
TAN Ri og z) Æ b AA, ARA FF AACH, Zo ORLA, AE, 对 于 任意 的 之 ， TAN e i 之 ) 表 
示 由 乒 怒 ) 一 bz，z) 定 义 的 函数 f: HOR, 


(具有 平方 损失 的 线性 回归 ) 注意 到 线性 回归 是 一 个 可 以 模拟 “解释 性 ” 变 
量 与 实 值 输出 (参考 第 9 章 ) 之 间 关 系 的 工具 。 定 义 域 4 是 R 的 一 个 子 集 ， 标 签 集 ) 是 由 一 
te 我 们 的 目标 是 学 习 出 一 个 能 最 好 地 近似 变量 之 间 关 系 的 线性 函数 

: ROR. 在 第 9 章 中 ,我 们 把 假设 类 定义 为 由 齐 次 线性 函数 组 成 的 集合 X= (xe (w, 
wER}， 并 使 用 平方 损失 函数 LC(h，(x，y)) 二 (h(x) 一 y)*。 然 而 ,我 们 可 以 将 学 习 
问题 等 价 地 描述 为 一 个 凸 学习 问题 。 每 个 线性 函数 均 由 向 量 w ER 进行 参数 化 。 样 本 集 
Z=* XY=R XR=R’"', MRK Cw, (x, W)=CKw, x)—y)?, BR, HBA 
集 。 损 失 函 数 关 于 它 的 第 一 个 变量 (w) 也 是 凸 的 (参考 例 12. 2) 。 4 


引 理 12.11 RAKAN / ALAA, RRAHLAGH, WAERM, 问题 (在 和 4 上 极 
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小 化 经 验 损 失 ) 是 一 个 凸 优化 问题 ; 也 就 是 相当 于 在 一 个 凸 集 上 极 小 化 一 个 巴 函 数 。 


证 明 ERM 问题 定义 为 
ERM (S) = argminLs(w) 


又 S=z; 288 ys om 9 对 于 每 个 W > Ls(w) == >) Kw > Z)s 论断 12. 5 意味 着 Ls(w) 是 一 
i=] 


个 凸 函数 。 因 此 ，ERM Sassi ee B/E ROMER HRS ET ORC. m 
在 适当 的 条 件 下 ， 这 样 的 问题 可 以 通过 一 般 的 优化 算法 进行 求解 。 特 别 地 ， 我 们 将 在 
第 14 章 中 给 出 一 个 非常 简单 的 极 小 化 上马 函数 的 算法 。 


12.2.1 凸 学 习 问题 的 可 学 习性 

对 于 很 多 情形 ， 利 用 ERM 规则 可 以 有 效 地 求解 凸 学 习 问 题 。 但 是 ， 吓 性 是 否 是 问题 
可 学 习性 的 充分 条 件 呢 ? 

为 了 使 问题 更 加 具体 : 在 VC 维 中 ,我 们 知道 d 维 的 半空 间 是 可 学 习 的 (或 许 效 率 比 
较 低 ) 。 在 第 9 章 我 们 说 如 果 问 题 含 有 d 个 参数 ， 那 么 使 用 “离散 技巧 ”问题 是 可 学 习 
的 ， 此 时 采样 复杂 度 是 一 个 关于 d 的 函数 。 也 就 是 说 ， 对 于 一 个 常数 d 而 言 ， 问 题 应 该 是 
WIN. BA, EDE R 上 所 有 的 是 学 习 问 题 都 是 可 学 习 的 呢 ? 


后 面 的 例 12. 8 表明 即便 在 d 很 低 的 情况 下 ， 答 案 也 是 否定 的 。 不 是 下 上 所 有 的 凸 学 


习 问 题 都 是 可 学 习 的 。 这 和 VC 维 理论 并 不 矛盾 ， 因 为 VC 维 理论 只 解决 二 分 类 问题 ， 而 
这 里 我 们 考虑 的 是 一 类 更 广泛 的 问题 。 这 和 “离散 技巧 ”也 不 矛盾 ， 因 为 我 们 假设 损失 是 
有 和 界 的 ， 同 时 假设 用 有 限 数量 的 位 来 表示 每 个 参数 就 足够 了 。 正 如 我 们 后 面 将 要 说 明 的 ， 
在 许多 实际 情况 中 ， 如 果 添 加 一 些 额 外 的 约束 条 件 ， 那 么 凸 问题 是 可 学 习 的 。 


(线性 回归 的 不 可 学 习性 ， 包 括 d=1 的 情形 )” 设 入 二 民 ， 损失 函数 为 平方 损 
失 : Uw, (x, y))=Cwr—y)? (我们 指 的 是 齐 次 的 情况 )。 设 A 是 任意 一 个 确定 的 算法 9。 
利用 反 证 法 ， 假 设 对 于 该 问题 来 讲 ，A 是 一 个 成 功 的 PAC 学 习 器 。 也 就 是 说 ， 存 在 一 个 
函数 ma(。,，)， 使 得 对 于 每 个 分 布 D，e， ô WME A 收 到 一 个 大 小 为 mw 宇 m(e，5) 的 训练 
集 ， 那 么 它 至 少 以 1 一 6 的 概率 输出 假设 多 二 A(S)， 使 得 Lp(W)—minLp (w) Ke, 


A> e=1/100, 8=1/2, m>m(e, 8), aoe 我 们 将 定义 两 种 分 布 ， 并 说 


明 A 有 可 能 至 少 在 其 中 一 个 分 布 上 失效 。 第 一 eet 由 两 个 样本 zp = (1, OM z= 
G， 一 1]) 文 撑 ， 第 一 个 样本 的 概率 质量 函数 是 ww， 第 二 个 样本 的 概率 质量 函数 是 1 — - 
二 个 分 布 D; 完全 由 样本 z 支撑 。 


注意 到 对 于 两 个 分 布 来 讲 ， 训 练 集 的 所 有 样本 属于 第 二 类 的 概率 至 少 是 99%。 对 分 布 
D: 而 言 ， 这 是 显然 的 。 而 对 Di 而 言 ， 该 事件 的 概率 是 
=p)" >o = 6.99 
既然 我 们 假设 A 是 一 个 确定 的 算法 ， 当 A 接收 到 一 个 由 个 样本 组 成 的 训练 集 时 ， 
其 中 每 个 样本 都 是 (5， 一 1) ， 算 法 会 输出 某 个 包 。 此 时 ， 如 果 了 于 一 17/(2x) ， 我 们 令 分 布 
为 D; 。 因 此 


O ee 5 的 前 提 下 ， 输 出 A 是 确定 的 。 这 只 是 为 了 方便 起 见 。 此 外 ， 不 确定 性 算法 是 不 可 以 用 来 学 习 的 。 
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Lp, (&) > p (Wy? > 1/(4p) 
又 因为 
minLp, (w) < Lp, (0) = U — p) 
TE 
Lp, (w) — minLp, (w) > i= (i=) >< 

所 以 ， 这 样 的 一 个 算法 A HEAD AID, LAIN. AA, MRw>—1/(2u), PAK 
们 将 令 分 布 为 D;。 于 是 当 minLp, (w)=0 时 ， 我 们 有 Lo, (多 ) 宇 1/4， 因 此 算法 A 在 分 布 D， 
上 是 无 效 的。 总 的 来 说 ， 我 们 说 明了 对 于 每 一 个 A 都 存在 一 个 分 布 使 得 A 在 该 分 布 上 是 
无 效 的 ， 这 就 意味 着 该 问题 不 是 PAC 可 学 的 。 

一 个 可 能 的 解决 方法 是 在 假设 类 上 添加 其 他 的 约束 条 件 。 除 了 凸 性 ， 我 们 还 要 求 和 是 
有 界 的 ， 即 假定 对 于 某 个 预先 给 定 的 标量 B， 每 个 假设 w EHRE | w || <B. 

下 面 ， 举 例 说明 有 界 性 和 凸 性 仍 不 能 保证 问题 是 可 学 习 的 。 


GED 在 例 12. 8 中 ， 考 虑 平方 损失 的 回归 问题 然而， 这 次 我 们 令 X={w: | wl 
1} CR 是 一 个 有 界 的 假设 类 。 不 难 证 明 X 是 凸 的 。 现 在 ， 除 了 分 布 D! MD, 分 别 是 由 zi = 
(1/u，0) 和 z= 二 (1， 一 1) 支 撑 外 ， 参 数 和 例 12. 8 中 是 一 样 的 。 如 果 算 法 A 收 到 第 二 类 中 
的 m 个 样本 时 返回 也 <1/2， 那 么 我 们 将 分 布设 为 Di ， 并 且 有 

Lp, (WW) — minLp, (w) > pb /p) — Lo, (0) > 1/4) 一 (一 >e 
类 似 地 ， 如 果 鲍 宇 1/2， 我 们 将 分 布设 为 D,， 且 有 
Lp, (&) — minLp, (w) > (—1/2+ D? —0 >e 

这 个 例子 说 明 对 于 学 习 问 题 我 们 需要 其 他 的 一 些 假设 条 件 ， 这 次 的 解决 方法 是 假设 损 
失 函 数 具 有 利 普 希 茨 性 或 光滑 性 。 这 就 促使 我 们 给 出 两 类 学 习 问 题 的 定义 : 凸 利 普 希 芯 有 
RAC EAR. ME EE PRA. i < 


12.2.2 ARKA WORA R Ia 

定义 12. 12( 凸 利 普 希 蒋 有 界 学 习 问 题 ) 如果 假 设 类 了 4 是 一 个 西 集 ， 且 对 于 所 有 的 
wEHRR È| wl <B; 对 于 所 有 的 CZ, KAAL, JALALA pAltHeK, N 
FIARACH, Z, OXDAMSHRARKH, HP p, BEEK, 

SX={xER': |xl<o}, VSR. RBIRAH={(wER’: |w|<B}, 损失 
图 数 为 ZL(z，(Cxr，y)) 王 | (am，x) 一 y| 。 这 对 应 于 具有 绝对 损失 的 回归 问题 ， 这 里 我 们 假 
设 样本 在 一 个 以 p 为 半径 的 球 内 ， 且 限制 假设 和 由 向 量 w 定义 的 线性 函数 同 质 ，||w| 声 
B。 然 后 ， 得 到 的 问题 便 是 一 个 以 p 和 B 为 参数 的 凸 利 普 希 茨 有 界 的 学 习 问 题 。 | 

定义 12. 13( 廿 光滑 有 界 学 习 问 题 ) ”如 果 假 设 类 XN 是 一 个 廿 集 且 对 于 所 有 的 ww 区 都 
成 立 |z| 委 B， 对 于 所 有 的 zEZ， 损 失 函 数 L(。，z) 是 西 的 、 非 负 的 且 是 8- 光滑 ， 那 么 称 
FIRMAH, Z, ORGHKRARH, LPB, BARK. 

注意 到 我 们 要 求 损失 函数 是 非 负 的 ， 这 是 为 了 保证 损失 是 自 有 界 的 。 


&X={xER': | 上 x| 志 8/2}， y=R。 设 假设 类 X= 二 {wER: |wl|<B), 损 
失 隐 数 为 LC(w，(x，y)) 二 ((w，x) 一 y)*。 这 对 应 于 具有 平方 损失 的 回归 问题 ， 这 里 我 们 
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假设 样本 在 一 个 以 8/2 为 半径 的 球 内 ， 且 限制 假设 和 由 向 量 w 定义 的 线性 函数 同 质 ， 
1 世 1 和 受 B。 然 后 ， 得 到 的 问题 便 是 一 个 以 AB 为 参数 的 凸 光 滑 有 界 的 学 习 问 题 。 本 


我 们 断言 这 两 类 学 习 问 题 是 可 学 习 的 。 也 就 是 说 ,损失 函 数 具 有 凸 性 、 有 界 性 和 利 普 
希 茨 性 或 光滑 性 是 可 学 习 的 充分 性 。 在 下 一 章 中 ， 我 们 将 通过 能 成 功 学 习 这 些 问题 的 算法 
来 证 明 这 个 论断 。 


12.3 ”替代 损失 函数 


正如 前 面 所 提 到 的 ， 我 们 将 在 下 面 的 章节 看 到 同学 习 问 题 可 以 被 有 效 地 求解 。 然 而 ， 
在 许多 情况 下 ， 自 然 的 损失 函数 不 是 凸 的 ， 特 别 地 ， 实 施 ERM 准则 是 困难 的 。 
举 个 例子 ， 考 虑 学 习 半 空间 上 关于 0 一 1 损失 的 假设 类 问题 ， 即 
Cw x,y)) = yasign(w,x))] = yw,x)<0] 
这 个 损失 函数 关于 w 是 非 凸 的， 极 小 化 该 损失 函数 的 经 验 风 险 的 时 候 ， 我 们 得 到 的 是 一 
个 局 部 极 小 值 ( 见 练习 12. 1)。 而 且 ， 如 第 8 章 讨论 的 一 样 ， 在 无 法 实现 的 情况 下 ， 求解 关 
于 0 一 1 损失 的 ERM 问题 是 NP 难 的 . 
为 了 避免 这 个 困难 的 结果 ， 一 个 流行 的 方法 是 通过 一 个 凸 的 替代 损失 函数 来 定义 非 凸 
损失 函数 的 上 界 。 正 如 这 个 名 字 所 指示 的 ， 一 个 凸 替代 损失 需要 满足 : 
D EON. 
2) EFI KR —T EF. 
例如 ， 在 学 习 半 空间 的 情况 下 ， 我 们 可 以 定义 所 谓 的 合 页 (hinge) 损 失 作 为 0 一 1 损失 
Wheat. AMMA UF: 
fet fe.) = wal. = vow ad) 
显然 ， 对 于 所 有 的 w A(x, y), © 'Cw, (x, yel Cw, (x, y)). HA, SRA 
PRA COPE RT LA Re eb 12.5 EE). Auk, WFO-lMAMAS,. AMMA wea eS 
替代 损失 函数 的 要 求 。 函 数 4! 和 tw” 的 示意 图 如 下 。 





























TE — 


H t 
| 
| | | | | 


一 旦 我 们 定义 了 替代 凸 损失 ， 关 于 它 我 们 就 可 以 学 习 问 题 了 。 从 合 页 损失 学 习 的 一 般 
要 求 可 知 


L3™(ACS)) < minl p: (w) +e 


其 中 LB Cw) =E y-o Cw, (x, y))]. EACH, H LY CACS RT ATW 
出 左 端的 下 界 ， 得 
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Lp (A(S)) < minL p(w) +e 
进一步 ， 我 们 将 上 界 重 新 写成 : 
Lp (ACS)) < minL (w) + migLp™ Cw) — mipLp (w)) +e 
也 就 是 说 ， 学 到 的 预测 器 的 0 一 1 误差 的 上 界 由 三 部 分 构成 : 
o BRŽ: minlp (w)， 它 衡量 的 是 在 分 布 上 假设 类 的 表现 有 多 么 的 好 。 在 第 5 
章 中 我 们 已 经 对 这 个 误差 项 做 了 详细 的 描述 。 
o 估计 误差 : 我 们 没 能 观测 到 分 布 D， 而 是 只 接收 到 了 一 个 训练 集 ， 这 项 误差 就 是 基 
于 这 样 一 个 事实 得 到 的 。 同 样 地 ， 在 第 5 章 中 我 们 也 已 经 详细 描述 了 这 个 误差 项 。 
© 优化 误差 :minLB*(w) 一 minLp (w), CARRER FERIR DREMA 
于 原始 损失 的 盘 近 误差 两 者 之 间 的 差异 。 优 化 误差 可 以 认为 是 我 们 极 小 化 关于 原始 
损失 的 训练 损失 能 力 的 一 个 结果 。 这 个 误差 的 大 小 依赖 于 我 们 所 使 用 数据 的 特定 分 
布 和 特定 的 替代 损失 。 


12.4 小 绪 

我 们 介绍 了 两 类 学 习 问 题 : OAK A A aA Ge AAA. FER POR AY Pee 
中 ， 我 们 将 描述 两 种 对 这 两 类 问题 而 言 通用 的 学 习 算法 。 我 们 还 介绍 了 凸 蔡 代 损 失 函 数 的 
念 ， 这 使 得 我 们 可 以 用 凹 机 制 来 解决 非 号 的 问题 。 


12.5 文献 评注 


一 些 关 于 凸 分 析 和 优化 的 优秀 书籍 ， 如 Boyd 和 Vandenberghe(2004), Borwein 和 
Lewis(2006), Bertsekas(1999), Hiriart-Urruty 和 Lemaréchal(1993)。Zinkevich (2003) 
在 在 线 学 习 的 背景 下 第 一 个 研究 了 凸 利 普 希 深 有 界 问 题 ， 而 Shalev-Shwartz, Shamir, 
Sridharan 和 Srebro(2009) 则 在 PAC 学 习 的 背景 下 第 一 个 研究 了 凸 利 普 希 次 有 界 问 题 。 


12.6 练习 

12.1 构造 一 个 例子 说 明 0 一 1 损失 可 能 得 到 局 部 极 小 值 ， 即 构造 一 个 训练 集 SE 
(XX 1D” URZ X 一 及 )， 存 在 一 个 向 量 w MEA ce >0 使 得 
D 对 任何 使 得 上 |w 一 we‖<e 的 w' 我 们 有 Ls(w) 二 Ls (w')， 其 中 损失 为 0 一 1 HA, 

这 就 意味 着 w 是 Ls 的 局 部 极 小 值 。 
2) 存在 某 个 w* 使 得 Ls(w* )<Ls(w)s 这 就 意味 着 w 不 是 Ls 的 全 局 极 小 值 。 

12.2 ”考虑 逻辑 斯 详 回 归 问 题 : KH=X=(xeR': |x| <B), 标量 B>0, 4Y={+1}, 
损失 函数 2 定义 为 6(w，(x，y)) 二 log(1 十 exp( 一 y(w，x)))。 说明 该 问题 既是 凸 
利 普 希 次 有 界 又 是 凸 光滑 有 界 的 ， 并 指出 利 普 希 茨 性 和 光滑 性 的 参数 。 

12.3 考虑 合 页 损失 的 半空 间 学 习 问 题 。 我 们 将 定义 域 限制 在 半径 为 R 的 欧 几 里 得 球 上 。 
也 就 是 说 , X= {x:; xl: SR} 令 标 签 集 7 二 { 土 1}, 损失 函数 4 定义 为 
lw，(x，y)) 二 max(0，1 一 yw，x))。 我 们 已 经 知道 该 损失 函数 是 凸 的 ， 请 说 明 
Ext R- 利 普 希 次 。 


"12.4 四 利 普 希 获 有 界 性 不 是 计算 效率 的 充分 条 件 : 在 下 一 章 中 ,我 们 从 统计 的 角度 说 明 


所 有 的 凸 利 普 希 深 有 界 的 问题 (在 不 可 知 PAC 模型 下 ) 是 可 学 习 的 。 然 而 ， 我 们 学 
习 这 样 问题 的 动机 是 源 自 可 计算 的 角度 一 一 凸 问题 通常 可 以 被 有 效 地 求解 。 但 是 ， 
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这 个 练习 的 目的 是 说 明 只 有 凸 性 不 是 可 有 效 计 算 的 充分 条 件 。 我 们 说 明 其 至 在 d= 
1 的 情况 下 ， 存 在 凸 利 普 希 奖 有 界 问 题 是 不 能 被 学 习 的 。 | 

设 假设 类 为 4 二 L0，1]， 样 本 的 定义 域 为 所 有 的 图 灵机 Z。 定 义 如 下 的 损失 函数 。 
对 于 每 一 个 图 灵机 TEZ， 如 果 工 在 输入 0 处 出 错 暂 停 ， 则 令 20, D=1; 如 果 工 
在 输入 0 处 不 出 错 暂 停 ， 那 么 令 LX(0，T) =0。 类 似 地 ， 如 果 了 在 输入 0 处 出 错 暂 
fF, MZA, T)=0, We TERA 0 处 不 出 错 暂 停 ， 那 么 令 (1，T) = 二 1。 最 
后 ， 对 于 hE(0, 1). Sh, D=O, T)+0—ANCC, T). 

1) 说 明 该 学 习 问 题 是 凸 利 普 希 茨 有 界 的 。 

2) 说 明 没有 可 计算 的 算法 能 够 学 习 该 问题 。 
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在 上 一 章 中 ， 我 们 介绍 了 一 族 凸 利 普 希 茨 有 界 和 凸 光滑 有 界 的 学 习 问 题 。 本 章 ， 我 们 
来 说 明 这 两 个 族 中 的 所 有 学 习 问 题 都 是 可 学 习 的 。 对 于 这 种 形式 的 一 些 学 习 问 题 ， 证 明 一 
致 收敛 满足 是 可 能 的 ; 因此 用 ERM 准则 它们 是 可 学 习 的 。 然 而 ， 对 于 这 种 形式 的 所 有 的 
学 习 问 题 并 不 都 是 真 的 。 但 是 ， 我 们 将 要 介绍 另 一 种 学 习 规 则 ， 并 且 表 明 它 可 以 学 习 所 有 
的 凸 利 普 希 茨 有 界 和 吓 光 滑 有 界 的 学 习 问 题 。 

在 这 一 章 中 我 们 介绍 新 的 学 习 范 式 ， 即 正则 损失 最 小 化 ， 或 者 简写 成 RLM。 在 RLM 
中 我 们 最 小 化 经 验 风 险 和 一 个 正则 化 函数 的 和 。 直 观 地 来 讲 ， 正 则 化 天 数 描述 了 假设 的 复 
杂 度 。 事 实 上 ， 一 个 正则 化 函数 的 解释 是 在 第 7 章 曾 经 讨论 过 的 结构 风险 最 小 化 范式 。 对 
于 正则 化 的 另 一 个 认识 是 学 习 算 法 的 稳定 剂 。 如 果 一 个 算法 的 输入 的 一 个 小 的 变化 不 会 太 
多 地 改变 输出 ， 这 个 算法 就 被 看 作 是 稳定 的 。 我 们 将 会 在 形式 上 定义 稳定 性 的 概念 (我 们 
所 说 的 “输入 的 小 的 变化 ”和 “不 会 太 多 地 改变 输出 ”分 别 是 什么 意思 ) 并 且 证 明 它 与 可 
学 习 的 紧密 关系 。 最 终 ， 我 们 将 会 说 明 用 平方 L 范 数 作为 正则 化 函数 ， 可 以 让 所 有 的 凸 
利 普 希 茨 有 界 和 凸 光 滑 有 界 的 学 习 问 题 都 是 稳定 的 。 因 此 ， 对 于 这 些 学 习 问 题 的 族 ， 
RLM 可 以 被 用 来 作为 一 个 一 般 学 习 规 则 。 


13. 1 正则 损失 最 小 化 
正则 损失 最 小 化 (RLM) 是 一 个 同时 最 小 化 经 验 风险 和 一 个 正则 化 函数 的 学 习 规 则 。 
形式 上 ， 一 个 正则 化 函数 是 一 个 映射 尽 ， 了 -> 有， 正则 损失 最 小 化 规则 输出 一 个 假设 ， 
argmin(Ls(w) + RCw)) (13. 1) 


正则 损失 最 小 化 共有 最 小 描述 长 度 算法 和 结构 风险 最 小 化 (参考 第 7 章 ) 的 相似 性 。 直 观 地 
DF. 假设 的 “复杂 性 ”用 正则 化 函数 的 值 来 描述 ， 而 且 算 法 平衡 了 低 经 验 风 险 与 “更 简 
单 ”或 者 “不 那么 复杂 ”的 假设 。 

我 们 可 以 用 很 多 可 能 的 正则 化 函数 ， 它 们 反映 了 一 些 问 题 的 先 验 知 识 ( 类 似 于 在 最 小 
描述 长 度 中 的 描述 语言 );。 在 本 节 中 ,我们 将 聚焦 一 个 最 常见 的 正则 化 函数 : RC w) = 


à lwl, EP A>0 是 一 个 标量 而 且 范 数 是 & 范 数 ，| zl 一/ Set. ARETAS 
规则 ， | 

ACS) = argmin(Ls(w) +A || w ||?) (15.2) 
这 种 形式 的 正则 化 函数 通常 叫做 Tikhonov 正则 化 。 

就 像 之 前 提 到 的 一 样 ， 等 式 (13. 2) 可 以 用 结构 风险 最 小 化 来 解释 ， 其 中 w 的 范 数 是 
它 的 “复杂 度 ” 的 一 种 度量 。 回 忆 在 上 一 章 中 ， 我 们 介绍 了 有 界 假设 类 的 概念 。 因 此 ， 我 
们 可 以 定义 假设 类 的 一 个 序列 ， 和 5 CH;CHsC…， 其 中 KX; 二 {w: | 上 wl, 志 i} 。 如 果 每 个 X 
的 样本 复杂 度 依赖 于 i， 那 么 对 于 这 个 钥 套 类 的 序列 ，RLM 规则 类 似 于 SRM 规则 。 

正则 化 的 一 个 不 同 的 解释 是 稳定 剂 。 在 下 一 节 中 ， 我 们 定义 稳定 性 的 概念 ， 并 且 证 明 稳 
定 的 学 习 规则 不 会 过 拟 合 。 但 是 让 我 们 首先 解释 对 于 有 平方 损失 的 线性 回归 的 RLM 规则 。 


413% 正则 化 和 稳定 性 105 


岭 回 归 
把 有 Tikhonov 正则 化 的 RLM 规则 用 到 有 平方 损失 的 线性 回归 中 ， 我们 得 到 下 面 的 
学 习 规 则 ， 
RE lwli PS A ma" ) (13. 3) 


用 等 式 (13. 3) 实 现 线性 回归 被 称 作 岭 回 归 。 
为 了 求解 等 式 (13. 3) 我 们 将 目标 函数 的 梯度 比 作 零 ， 就 得 到 一 组 线性 等 式 
(24mI + A) w = b 


Ep I FARE, A, b 在 等 式 (9. 6) 中 定义 ， 即 
A= (Pxx?) 和 b= Diva, (13. 4) 


由 于 A FER IEE. EE are 的 所 有 特征 值 的 边界 都 在 2A4m 以 下 。 因 此 ， 这 
个 矩阵 是 可 逆 的 ， 岭 回归 的 解 变 成 
w = (24mI +A) 'b (13:5) 
在 下 一 节 中 ， 我 们 将 正式 说 明正 则 化 如 何 让 算法 稳定 并 且 抑 制 过 拟 合 的 发 生 。 特 别 
是 ， 下 一 节 中 出 现 的 分 析 ( 特 别 是 推论 13. 11) 将 会 产生 : 


定理 13.1 ADZ—+AXXK[—-1, LI EMAAR, HPL={xER’: |x]<1}. H= 
{weER:; |w| 志 B}。 对 于 任何 e€E(0，1), 4 m150B’/e?, AA, MAMA A=ce/(3B’) 
的 岭 回 归 算 法 满足 
E [L,(AC(S))] < minLp(w) +e 
s~p” wEH 


评注 “上面 的 定理 告诉 我 们 要 保证 学 习 到 的 预测 需 的 风险 的 平均 值 以 类 的 近似 误 善 加 
ke 为 边界 ， 需 要 的 样本 个 数 。 在 通常 的 不 可 知 PAC 可 学 习 的 定义 中 ， 我 们 需要 学 习 到 
的 预测 器 的 风险 以 至 少 1 一 6 的 概率 边界 化 。 在 练习 13. 1 中 ， 我 们 表明 有 边界 的 期 望 风 险 
的 算法 怎么 用 于 构建 一 个 不 可 知 PAC 8] 74 a8. 


13.2 稳定 规则 不 会 过 拟 合 


直观 上 来 看 ， 如 采 算 法 的 输入 的 一 个 小 的 变化 不 会 太 多 地 改变 算法 的 输出 ， 这 个 算法 
就 是 稳定 的 。 当 然 ， 有 许多 方法 来 定义 我 们 所 说 的 “输入 的 一 个 小 的 变化 ”和 “不 会 太 多 
地 改变 输出 ”。 在 这 一 节 中 ， 我们 定义 稳定 性 的 一 个 具体 的 概念 ， 并 证 明 在 这 个 定义 下 稳 
定 规则 不 会 过 拟 合 。 

S A 是 我 们 的 学 习 算 法 ，S 二 (zi ，…，zw) 是 mm 个 样本 的 训练 集合 ，A(S) 表 示 A 的 
输出 。 如 果 输 出 的 真实 风险 Lp (A(S)) 和 输出 的 经 验 风 险 Ls(A(S)) 之 间 的 差别 很 大 ， 这 
个 算法 A 就 是 过 拟 合 的 。 就 像 评注 提 到 的 一 样 ， 这 一 章 中 我 们 集中 于 量 的 期 望 值 (关于 S 
的 选择 )， 即 Es(Lp(ACS))—Ls(ACS))). 

下 面 我 们 定义 稳定 性 的 概念 。 已 知 一 个 训练 集合 S 和 一 个 附加 的 样本 = ， 令 S® 表示 
用 = 代替 S 中 的 第 i 个 样本 得 到 的 训练 集 ; Bp S™ = Cas 3 Zils y Mas Ty Bee 
在 我 们 对 稳定 性 的 定义 中 ,“ 输 入 的 一 个 小 的 变化 ” 指 的 是 将 算法 A 用 到 S@ (代替 S) 中 。 
也 就 是 说 ,我 们 仅仅 蔡 代 了 一 个 训练 样本 。 我 们 通过 比较 假设 A(S) 在 z 上 的 损失 与 假设 
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A(S® )#€ z 上 的 损失 ， 来 描述 算法 A 的 输入 的 小 的 变化 对 于 输出 的 影响 。 直 观 地 说 ， 一 
个 好 的 学 习 算法 有 Ll(A(S”)，z,) 一 L(A(S)，zz;) 宇 09， 因为 第 一 项 中 学 习 算 法 没有 观察 到 
样本 z; 但 是 在 第 二 项 中 观察 到 样本 <; 。 如 果 上 面 的 差别 是 很 大 的 ， 我 们 怀疑 学 习 算 法 可 能 
过 拟 合 。 这 是 因为 如 果 在 训练 集中 观察 到 了 这 个 样本 ， 学 习 算 法 会 大 幅度 地 改变 它 的 预 
测 。 这 些 可 以 用 下 面 的 定理 形式 化 表示 。 
定理 13.2 令 D 是 一 个 分 布 。 令 S 二 (zi1，…，z) 是 一 个 独立 同 分 布 的 样本 的 序列 ， 

z' 是 另 一 个 独立 同 分 布 的 样本 。 令 UCm) 是 一 个 在 [Lm] 上 的 均匀 分 布 。 那 么 ， 对 于 任何 学 
JHE, 

E [Lp (ACS)) — Ls(A(S)) ] = E [CA(S® ) zi) — ACS) sz) ] (13. 6) 

S~D” (m) 


(Siz) ~D" su 
证 明 由 于 S 和 xz' 都 是 从 D 中 得 到 的 独立 同 分 布 的 样本 集 或 样本 ， 对 于 所 有 的 i 
BLLp(A(S))] = EL AGS) TPI EL@ACS® ) ,zi)] 
BLLs(A(S))] = EL¢‘A(S),2z;)] 
结合 这 两 个 等 式 ， 我 们 可 以 推出 结论 。 
当 等 式 (13. 6) 右 边 是 非常 小 的 时 候 ， 我 们 说 A 是 稳定 的 算法 一 一 训练 集中 改变 一 个 样 
本 不 会 引起 很 大 的 变化 。 正 式 表 示 如 下 。 


定义 13. 3(on-average-replace-one-stable) 令 e: N-> 了 是 一 个 单调 递减 函数 。 我 们 说 
如 果 对 于 所 有 的 分 布 卫 下 式 成 立 ， 一 个 学 习 算 法 A 就 是 在 比率 e(m) 下 的 on-average- 
replace-one-stable; 


E LZ(ACS® ),2z;) —@CACS) z) | <e(m) 
(m) 


(SnD iU 
定理 13. 2 告诉 我 们 当 且 仅 当 一 个 算法 是 on-average-replace-one-stable， 它 就 不 会 过 拟 
合 。 当 然 ， 一 个 不 会 过 拟 合 的 学 习 算 法 也 不 一 定 是 一 个 好 的 学 习 算 法 比如 说 一 个 总 是 
输出 相同 假设 的 算法 A。 一 个 有 用 的 算法 应 该 找到 一 个 既 适 合 训练 集 ( 也 就 是 有 一 个 低 的 
经 验 风险 ) 又 不 过 拟 合 的 假设 。 或者， 根据 定理 13. 2， 算 法 应 该 在 适合 训练 集 的 同时 ， 也 
是 稳定 的 。 正 如 我 们 将 看 到 的 一 样 ，RLM 规则 中 的 参数 4 平衡 了 适合 训练 集 与 稳定 性 ，。 


13.3 Tikhonov 正则 化 作为 稳定 剂 


在 上 一 节 中 ， 我们 看 到 了 稳定 规则 不 会 过 拟 合 。 在 这 一 节 中 ,我 们 说 明 用 有 Tik- 
honov 正则 化 4 || wl? 的 RLM 规则 可 以 得 到 一 个 稳定 的 算法 。 我 们 假设 损失 函数 是 凸 的 ， 
而 且 它 是 利 普 希 次 的 或 是 光滑 的 。 

我 们 所 依赖 的 Tikhonov 正则 化 的 主要 性 质 是 它 能 够 让 RLM 的 目标 函数 是 强 上 的， 
下 面 会 给 出 定义 。 


定义 13.462 DBM) 如 果 对 于 所 有 的 w,，u 和 aE(0，1) 都 有 下 列 不 等 式 成 立 ， 我 
们 就 说 这 个 函数 f 是 - 强 西 的 : 


flaw +A — au) Saf (w) + 0—0) fu) — Žal —a) || w—ull? 





显 而 匈 见 ， 每 个 凸 函数 都 是 0 - 强 凸 的 。 强 凸 的 一 个 说 明 如 下 图 所 示 。 
下 面 的 引 理 说 明 RLM 的 目标 函数 是 2A - 强 凸 的 。 另 外 ， 它 强调 了 强 凸 的 一 个 重要 性 质 。 
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=$ a(1-a)||u—w? 





aw + (l-a)u 


引 理 13.5 

1. 函数 f(w)=A | wl? 是 24- 强 西 的 。 

2. 如 果 厂 是 1 - 强 西 的 而 且 g L4H, BA fg 是 人- 强 西 的 。 

3. 如果 了 是 人 - 强 耳 的 而 且 玉 是 三 的 一 个 极 小 值 ， 那 么 ， 对 于 任何 w, 


f(w) = fw) =e lw— ul]? 


证 明 前 两 点 可 以 直接 从 定义 推导 得 到 。 为 了 证 明 最 后 一 点 ， 我 们 将 强 凸 的 定义 除 以 
a 并 且 调 换 每 项 的 位 置 ， 可 以 得 到 
大 一 本 天 < f(w) — f(u) aks. =a |w— ul? 


取 极 限 a>0， 不 等 式 右边 收敛 到 f(w) 一 f(w) 一 人 上 w 一 ul|*。 另 一 方面 ， 不 等 式 左边 变 成 


PRA g(a) = f(ut+alw—u)) FE a=0 处 的 导数 。 由 于 ww 是 了 的 一 个 极 小 值 ，a==0 就 是 g 的 
一 个 极 小 值 。 因 此 ， 在 极限 a>0 时 ， 不 等 式 的 左边 趋 近 于 0， 这 就 结束 了 我 们 的 证 明 。 m 
现在 我 们 转向 去 证 明 RLM 是 稳定 的 。 令 S== (zi ，…，z;) 是 一 个 训练 集 ，z' 是 一 个 
RANIJE, SP = (zi, es Zis Zo Ziti s Zm)o 令 A 是 RLM 规则 ， 即 
A(S) = argmin(Ls(w) + A | wl?) 
& fs(w)=Ls(w) +A | w|’, 而且 基 于 引 理 13. 5 我 们 知道 fs 是 (21)- 强 凸 的 。 按 照 引 理 
的 第 三 部 分 ， 对 于 任何 v， 


fs(v) — fs (ACS) >a |v — ACS) |? (13. 7) 
另 一 方面 ， 对 于 任何 v Flu, 对 于 所 有 的 1s 我 们 有 
fso) — fs) =Ls (v) +A lol? — (Ls) +A lul?) (13. 8) 


=Ls® (v) +A | ull? — (Ls (u) +A llul?) 
4 E002) —lu,zi) | Cz!) — Lv,z) 
m m 
特别 地 ， 选 择 v=ACS), u=A(S), IF AN v 最 小 化 Lsw (Cw) +a | wl? 的 事实 ， 
我 们 得 到 


fs(ACS® )) — fsCACS)) LAS" ) szi) — MACS) ,zi) 


m 


4 EACS) 52°} — AACO) 


m 


(13. 9) 
结合 它 和 等 式 (13. 7) 我 们 得 到 


108 ”第 二 部 分 从 理论 到 算法 


CCACS” ) oZ) — (A(S) 92) 
m 
4 UA) wz) —C(A(S®), 2") 


m 


下 面 的 两 节 继 续 进行 利 普 希 次 或 者 光滑 损失 函数 的 稳定 性 分 析 。 对 于 这 两 个 损失 函数 


à LACS) — ACS) |? < 


(13. 10) 


的 族 ， 我 们 表明 RLM 是 稳定 的 ， 所 以 它 不 会 过 拟 合 。 


13.3.1 利 普 希 茨 损 失 
WRIA PRL CC, et o- 利 普 希 获 的 ， 那 么 根据 利 普 希 芯 的 定义 ， 
KAC Jiz) — @CACS) ,2z;) < pl ACs” )— A(S) || 13. 1) 
相似 地 ， 
C(ACS) ,2') —@A(S®) 29) < ol ACS® ) — A(S) || 
把 这 些 不 等 式 代 入 到 等 式 (13. 10) 中 得 到 
a || ACS®) — ACS) |? < MLAS) ACI 
上 和 式 可 以 变 成 
| ACS® ) — ACS) I< 
把 上 面 的 不 等 式 再 代 人 不 等 式 (13. 11) 中 ， 我 们 最 终 可 以 得 到 
KALSOY, z) —WACS),2;) < e 
由 于 它 对 于 任何 S，z ，i 都 成 立 ， 我 们 可 以 得 到 
推论 13.6 假设 损失 函数 是 凸 的 和 0p- 利 普 希 英 的 。 那 么 ， 正 则 化 项 为 4 上 wj? 的 
2 
RLM 规则 是 比率 为 2e 的 on-average-replace-one-stable, 
因此 (用 定理 13. 2) 
2 


1 
S~D”" Am 


13.3.2 光滑 和 非 负 损失 


如 采 损 失 是 8- 光滑 的 和 非 负 的， 那么 它 也 是 自 有 界 的 (参考 12. 1 节 ): 
| VEC w) ||? < 28f Cw) (13. 12) 


我 们 进一步 假设 ASS, HBR B<am/2. RERE, RTA 
LA(Se ) ,zi) — ACS) szi) <(VOCA(S) szi), ACSP) — A(S)) 
| +E | Acs”) — ACS) |? (13. 13) 
用 柯 西 - 施 瓦 茨 不 等 式 和 式 (12. 6) ， 我 们 可 以 进一步 得 到 
MACS) yzi) 一 人 4A(CS),=) <I VECACS) zd AS) — ACS) + 4 [Acs — ACS) I? 
VA ETAS?) — ACS) | 
+8 | ACS®) — A(S) ||? (13. 14) 
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用 对 称 的 说 法 ， 它 也 满足 
KACS) 2) 一 CC(AGSe@),z 和 YY2B80(CACSe),z )1ACSe ) — ACS) | 


+4 | ACS® ) — ACS) ||? 
把 这 些 不 等 式 带 人 式 子 (13. 10) 中 ， 并 且 改 变 每 一 项 的 位 置 ， 我 们 可 以 得 到 
JACS®) —A(S) |< og VCASH + VIA), z) 


结合 上 式 和 假设 BAm/2， 可 以 得 到 
CN = V8B Ci) 
| ACS) — AO || < EAAS, + VUACST) sz)) a 
Am (143| 
结合 上 式 和 式 (13. 14)， 并 且 再 次 用 假设 BXhm/2， 可 以 得 到 
CCA(S™ zi) —@CACS) zi) 
</2R(AG) 2) |A(S®) — ACS) +È Acs) — ACS) I? 


<(#2 + SE) MEAS) 72) + VAAG), z) 


m)’ 
<a (VIAC), z) + IAGO), z) 


<Ha) ,之 ) 十 lCACSe ) ,2')) 


其 中 ， 在 最 后 一 步 中 ， 我 们 用 到 了 不 等 式 (c 十 0)2 委 3(c2 +6"), 关于 Sa Fa i WHA, 并 
且 注 意 到 ELZCACS), z) J=ELCCA(S®), z') J=ELLs(ACS)) ], 我 们 可 得 以 下 推论 : 


推论 13.7 (RAK BHA P-HKMAH FO4E HA. BA, EEA A A | wil? 的 RLM 
规则 满足 下 式 成 立 ， 其 中 aS, 
EKAGO ),z,) —@A(S) 2) ]< PREL (A(S) )] 


注意 如 果 对 于 所 有 的 zx， 对 于 一 些 标量 C>, RERA ZOO, D<C, 那么 对 于 所 
AS, 
Ls(A(S)) <Ls(A(S)) +A || ACS) |]? < Ls(0) +a lol? = Ls(0) <C 
因此 ， 推 论 13.7 也 意味 着 


EL¢(A(S®),z,) —L(A(S) ,z)] < 和 
13.4 控制 适合 与 稳定 性 的 权衡 


我 们 重 写 一 个 学 习 算法 的 期 望 风险 如 下 所 示 : 
了 BLLp(A(CS)) = ELLs(AC(S))] + ELLp (A(S)) —Ls(A(S))] (13. 15) 


第 一 项 反映 了 A(S) 适 合 训 练 数据 的 程度 ， 第 二 项 反映 了 A(S) 的 真实 风险 与 经 验 风 险 之 间 
的 差别 。 就 像 我 们 在 定理 13.2 中 说 明 的 一 样 ， 第 二 项 等 价 于 A 的 稳定 性 。 由 于 目标 是 最 
小 化 算法 的 风险 ， 我 们 需要 两 项 的 和 是 小 的 。 
在 上 一 节 中 ， 我 们 给 稳定 性 项 加 了 边界 。 我 们 已 经 说 明 随 着 正则 化 参数 4 的 增加 ， 稳 
定性 项 减少 。 另 一 方面 ， 经 验 风 险 随 着 4 的 增加 而 增加 。 因 此 ， 我 们 面临 着 适合 与 过 拟 合 
之 间 的 权衡 。 这 个 权衡 与 本 书 中 之 前 讨论 的 偏差 -复杂 度 权 衡 非 常 相 似 。 
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现在 我 们 推导 RLM 规则 的 经 验 风 险 项 的 边界 。 回 想 RLM 规则 定义 为 ACS) =argmin 
(Ls(w) 十 A wl?)。 固 定 任意 向 量 w”, RIA 
Ls(ACS)) < Ls(A(S)) +a | ACS) |]? < Ls(w* ) +A lw" |? 
将 式 子 的 两 边 都 关于 S 取 期 望 ， 并 且 注 意 到 Esl Ls(w*)]=Lpolw*), RATE 
BLLs(A(S))] <Lp(w*) +A |w” |? (13. 16) 


将 它 带 入 到 式 (13. 15) 可 以 得 到 
BLLp(A(S))] <L p(w") +a | w* |? + BLL (ACS)) — Ls(ACS)) 


结合 上 式 和 推论 13. 6， 我 们 可 以 下 推论 ， 
推论 13.8 假设 损失 函数 是 西 的 和 o- 利 普 希 蒋 的 。 那 么 ， 正 则 化 项 为 lwl 的 
RLM 规则 满足 ; 
V w`, E[Lp(ACS))]<Lp(w*) +2 lw | 十 经 


这 个 边界 通常 被 称 作 神 论 不 等 式 一 一 如 果 我 们 把 w * 看 作 是 低 风 险 的 假设 ， 这 个 边界 
告诉 我 们 需要 多 少 样 本 就 可 以 实现 A(S) 和 w* 几乎 一 样 ， 如 果 我 们 知道 w* 的 范 数 。 然 而 
实际 上 ， 我 们 通常 不 知道 w 的 范 数 。 因 此 ， 我 们 经 常 像 第 11 章 描 述 的 一 样 ， 在 一 个 验证 
集 的 基础 上 调整 \。 

对 于 凸 利 普 希 欧 有 界 学 习 问 题 ， 我 们 也 可 以 从 推论 13. 8 中 导出 一 个 PAC 类 似 的 保证 S : 


推论 13.9 令 (H，Z，0) 是 一 个 参数 为 p，B 的 凸 利 普 希 贡 有 界 学 习 问 题 。 对 于 任何 





2 
mkkm, 入 全 2, 那么 ， 正 则 化 项 为 1 lwl? 的 RLM 规则 满足 ， 


8 
ELLp(A(S))] < mipLo(w) 十 B |È 
80° B? 
He Ble, MPAA E> 0, wR ma 那么 对 于 所 有 的 分 布 D，Es[LL (A(S))] 过 
mink Cw) re. 


上 面 的 推论 对 于 利 普 希 区 损失 函数 成 立 。 如 果 蔡 换 成 光滑 的 和 非 负 的 损失 函数 ， 那 么 
我 们 可 以 结合 式 (13. 16) 和 推论 13. 7 得 到 ; 


推论 13.10 ”假设 损失 函数 是 凸 的 、B- 光 滑 的 和 非 负 的 。 那 么 ， 对 于 所 有 w, EM 
化 项 为 1 wl? 的 RLM 规则 满足 下 式 成 立 ， 其 中 D2, 


48 48 , l 
BELa (A(S))] < (1+3 giL cash] < (1+ 28) apwo +a lw ID 


比如 ， 如 果 我 们 选择 一 225， 可 以 从 上 式 得 到 A(S) 的 期 望 真实 风险 接近 于 ACS) 的 期 


望 经 验 风 险 的 两 倍 。 而 且 ， 对 于 的 这 个 取 值 ，A(S) 的 期 望 经 验 风险 接近 于 OL, (w* ) 十 
Bw" |. 


O 此 外 ,下 面 的 边界 是 关于 期 望 风 险 的 ， 但 是 用 练习 13. 1， 它 可 以 用 来 推导 一 个 不 可 知 PAC 可 学 习 的 保证 。 
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OE SEA FES a. FRAT AT A HEE 13. 10 中 导出 一 个 可 学 习 的 保证 。 
推论 13.11 AH, Z, OZ—-HRFRA p, BHGARARFSIAMAM. AMARA T 
2 
MAEZ, 00, 21. WHA CEO, 1), ame # Eit A=e/(3B*). AR 


么 ， 对 于 所 有 的 分 布 DD， 
BLLp(A(S))] < mipLp(w) +e 


13.5 小结 


我 们 介绍 了 稳定 性 ， 并 且说 明 如 果 一 个 算法 是 稳定 的 ， 那 么 它 就 不 会 过 拟 合 。 而 且 ， 
对 于 凸 利 普 希 茨 边界 和 凸 光 滑 边 界 问题 ， 有 Tikhonov 正则 化 的 RLM 规则 生成 一 个 稳定 
的 学 习 问 题 。 我 们 讨论 了 正则 化 参数 4 如 何 控制 适合 与 过 拟 合 之 间 的 权衡 。 最 终 ， 我 们 表 
HA. JX RLM 规则 的 所 有 来 自 凸 利 普 希 次 有 界 和 凸 光 滑 有 界 族 的 学 习 问 题 都 是 可 学 习 的 。 
RLM 范式 是 许多 流行 学 习 算 法 的 基础 ， 包 括 岭 回归 (在 本 章 中 讨论 过 ) 和 支持 疝 量 机 (将 会 
在 第 15 HLH). 

下 一 章 中 ， 我 们 将 介绍 随机 梯度 下 降 ， 它 为 我 们 学 习 凸 利 普 希 奖 有 界 和 凸 光 滑 有 界 问 
题 提供 了 一 个 可 供 选 择 的 方法 ， 而且 还 可 以 用 来 有 效 地 实现 RLM 规则 。 


13.6 文献 评注 


稳定 性 被 广泛 地 用 于 许多 数学 环境 下 。 比 如 ， 对 于 所 谓 逆 问题 应 该 很 好 地 提出 稳定 的 
必要 性 第 一 次 被 Hadamard(1902) 认 识 到 。 正 则 化 的 思想 和 它 与 稳定 性 的 关系 通过 Tik- 
honov(1943) 和 Phillips(1962) 的 工作 变 得 为 大 家 所 熟知 。 在 现代 学 习 理 论 的 内 容 中 ， 稳 定 
性 的 应 用 可 以 至 少 追 溯 到 Rogers 和 Wager(1978) 的 工作 ， 他 们 注意 到 一 个 学 习 算 法 关于 
样本 中 的 小 的 变化 的 敏感 性 控制 了 留 一 估计 的 方差 。 作 者 用 这 个 观察 得 到 了 k -邻近 算法 
的 泛 化 边界 (参考 第 19 草 )。 这 些 结果 后 来 扩展 到 了 其 他 “局 部 的 ”学 习 算 法 (参考 
Devroye, Györfi 和 Lugosi(1996) 以 及 其 中 的 引用 )。 另 外 ， 已 经 发 展 出 实际 的 方法 可 以 把 
稳定 性 引入 学 习 算 法 ， 特 别 是 Breiman(1996) 介 绍 的 Bagging 技术 。 

在 过 去 的 十 年 中 ， 稳 定性 被 当做 一 个 可 学 习 的 一 般 条 件 来 研究 。 参 考 Kearns & Ron 
(1999), Bousquet & Elisseeff (2002), Kutin & Niyogi(2002), Rakhlin, Mukherjee & 
Poggio(2005), Mukherjee, Niyogi, Poggio & Rifkin(2006) 。 我 们 的 介绍 跟随 了 Shalev- 
Shwartz，Shamir，Srebo 和 Sridharan (2010) 的 工作 ， 他 们 说 明了 稳定 性 是 可 学 习 的 充 要 
条 件 。 他 们 也 说 明 用 RLM 规则 ， 所 有 的 凸 利 普 希 次 有 界 学 习 问 题 都 是 可 学 习 的 ， 即 使 在 
强 的 语义 下 一 些 上 三 利 普 希 深 有 界 学 习 问 题 的 一 致 收敛 不 满足 。 


13.7 练习 


13.1 从 有 界 期 望 风险 到 不 可 知 PAC 可 学 习 : SA 是 可 以 保证 下 面 的 条 件 成 立 的 一 个 算 
法 : 如 果 mam, (se)， 那 么 对 于 所 有 分 布 D 都 满足 
E [1p(ACS))] <minlp(h) +e 
o 说 明 对 于 所 有 Oe (CO, 1), MR m>m (e8)， 那么 至 少 在 概率 1 一 》 F, 
Lp(A(S))<minLp (h) +e 成 立 。 


提示 : 观察 随机 变量 Lj (ACS)) 一 mipLp(A) 是 非 负 并 且 依赖 马尔 可 夫 不 等 式 。 
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e 对 于 所 有 的 6E (0，1), 令 
mesd) = my (e/2) [loge (1/8) 1+| 84/2 + log og 1/0) p 

提出 一 个 样本 复杂 度 为 my (se，6) 的 不 可 知 PAC 学 习 这 个 问题 的 步骤 ,假设 损失 也 

数 的 界限 为 1。 

Ba: A k=f log: (1/6)1。 把 数据 分 成 十 1 组 ， 其 中 每 个 前 组 的 样本 大 小 为 

ma(e/2)。 用 A 训练 前 k PA. 在 上 一 个 问题 的 基础 上 ， 讨论 对 于 所 有 组 都 有 

Lp(A(S))>minLy (h) +e 成 立 的 概率 最 多 为 2 “86/2。 最 终 ， 用 最 后 一 组 作为 验 

证 集 。 

没有 一 致 收 剑 性 的 可 学 习 : 令 8 是 一 个 取 值 为 RK Wek. CH=B, Z=BX 

{0，1)“， 而 且 令 7: ZXH>R Æ XWF: 


过 
bz,(Cxro)) = Ja: (ri — w)? 


这 个 问题 相当 于 一 个 非 监督 学 习 任 务 ， 意 味 着 我 们 不 去 预测 x 的 标签 。 相 反 ， 我 们 
要 做 的 是 找到 在 8 上 分 布 的 “ 团 的 中 心 ”。 但 是 ， 有 一 个 用 向 量 o 建 模 的 扭曲 。 每 个 
样本 都 是 一 个 (x，a) 对 ， 其 中 x 是 实例 x，@ 表明 x 中 的 哪些 特征 是 “激活 的 ”>， 哪 
些 是 “ 关 掉 的 ”。 一 个 假设 就 是 一 个 表示 分 布 的 团 的 中 心 的 向 量 w, m EHAR RR 
是 x 与 w 之 间 的 平方 欧式 距离 ， 不 过 仅仅 关于 x 中 “激活 的 ”元 素 。 
e 说 明 用 RLM 规则 ， 这 个 问题 是 可 学 习 的 ， 而 且 样 本 复杂 度 不 依赖 于 qd。 
e 考虑 一 个 Z 上 的 分 布 D 如 下 : x 固定 成 一 些 xo，e 的 每 一 个 元 素 以 相等 的 概率 采 
样 为 0 或 者 1。 说 明 这 个 问题 的 一 致 收敛 的 比率 随 着 4 增长 。 
提示 : 令 m 是 一 个 训练 集 的 大 小 。 说 明 如 果 d 污 2”"， 就 有 很 大 的 概率 采样 一 个 样 
本 集 使 得 存在 一 些 JELdj 对 于 训练 集中 所 有 的 样本 aj 二 1。 说 明 这 样 的 一 个 样本 
不 是 es- 可 表示 的 。 得 出 一 致 收敛 的 样本 复杂 度 一 定 随 着 log(d) 增 长 的 结论 。 
o 推导 结论 ， 如 果 我 们 把 4 取 为 无 限 大 ， 就 可 以 得 到 一 个 可 学 习 的 但 是 一 致 收敛 性 
不 成 立 的 问题 。 比 较 它 和 统计 学 习 的 基本 理论 。 
稳定 性 和 渐 近 的 EPM 足以 满足 可 学 习 的 条 件 : 如 果 对 于 分 布 D， 下 式 成 立 ， 我 们 就 
说 一 个 学 习 规 则 A 是 在 比率 s(x) 下 的 渐 近 的 经 验 风 险 最 小 化 (AERMD) : 
E [Ls(A(S)) — minLs (A) ] <e(m) 


S~D” Ac 
如 有 果 对 于 分 布 P， 下 式 成 立 ， 我 们 就 说 一 个 学 习 规 则 A 是 在 比率 e(m) 下 学 习 了 一 
SRH: 

BLLp(ACS)) 一 mipLp (h)] < el(m) 


证 明 下 述 定理 : 

定理 13.12 ”如 果 一 个 学 习 算 法 A 是 在 比率 sl (m) FH on-average-replace-one-sta- 
ble， 也 是 在 比率 ez (ma) 下 的 渐 近 经 验 风险 最 小 化 ， 那 么 它 在 比率 el (m)+e.(m) 下 
SAH, 

关于 一 般 范 数 的 强 凸 : 在 这 一 节 中 我 们 都 用 bs 范 数 。 在 这 个 习题 中 ， 我 们 把 一 些 
结果 推广 到 一 般 范 数 。 令 外. | 表示 任意 范 数 ， 且 了 是 一 个 关于 这 个 范 数 的 强 凸 函 
数 (参考 定义 13. 4) 。 

D 说 明 引 理 13. 5 中 的 2 一 3 项 对 于 所 有 的 范 数 都 成 立 。 
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“2) 给 出 引 理 13. 5 中 的 第 一 项 的 范 数 不 成 立 的 一 个 例子 。 
3) & R(w) 是 一 个 关于 一 些 范 数 | .| 的 (24)- 强 凸 函数 , 令 A 是 一 个 关于 R 的 


RLM 规则 ， 即 
A(S) = argmin(L;(w) + R(w)) 


假设 对 于 所 有 的 =， 损 失 函 数 &(。，z) 是 关于 相同 范 数 的 o- 利 普 希 茨 的 ， 即 
Vz,Vw,v, bws) —(0,z) ow— vl 


2 
证 明 A 是 在 比率 $2 下 的 on-average-replace-one-stable。 
“4) 令 gE(1，2) 而 且 考 虑 2 - 范 数 
d 
lwl =X lwl" 
i=] 
可 以 看 出 (比如 ， 参 考 Shalev-Shwartz(2007)) 函数 
oa a 2 
R(w) = XD lwl 


是 关于 | wll, 的 1 FA. HAMR qp EL, A RCw ERTL Re 上 


l 
AY 2, WA oa) 强 凸 的 。 
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Understanding Machine Learning: From Theory to Algorithms 


随机 梯度 下 降 





回想 一 下 ， 学 习 的 目的 是 极 小 化 风险 函数 ，Z (Cn) = 了 -ppLO，z)]。 由 于 它 依赖 的 
分 布 了 是 未 知 的 ， 所 以 不 能 直接 极 小 化 风险 函数 。 在 本 书 中 ,到 目前 为 止 我 们 已 经 讨论 了 
依赖 经 验 风 险 的 学 习 方 法 。 首 先 ， 我 们 采样 一 个 训练 集 S 并 定义 经 验 风 险 函 数 上 Ls(h)。 然 
后 ， 学 习 者 根据 Ls(h) 的 值 选择 一 个 假设 。 例 如 ，ERM 准则 告诉 我 们 在 假设 类 XK 上 选择 极 
小 化 Ls(h) 的 那个 假设 。 或 者 像 在 之 前 的 章节 中 ， 我 们 讨论 正则 化 风险 极 小 化 。 在 正则 化 
风险 极 小 化 中 ， 我 们 选择 一 个 联合 极 小 化 Ls(h) 和 正则 化 函数 的 假设 hh。 

本 章 我 们 将 描述 并 分 析 一 个 相当 不 同 的 学 习 方 法 ， 称 之 为 随机 梯度 下 降 (Stochastic 
Gradient Descent，SGD)。 如 第 12 章 我 们 关注 的 一 类 重要 的 凸 学 习 问 题 ， 给 定 符号 后 ， 我 
们 把 假设 看 成 是 凸 假设 类 中 的 向 量 w., Æ SGD P, 我们 试图 利用 梯度 下 降 策 略 去 直接 
极 小 化 风险 函数 Lj (w)。 梯 度 下 降 是 一 个 迭代 优化 策略 ， 通 过 取 沿 着 了 浮 数 当前 迭代 点 的 
负 梯 度 方向 的 步 长 来 提高 解 的 精度 。 当 然 ， 在 我 们 这 种 情况 下 ， 极 小 化 风险 函数 ， 并 不 知 
道 分 布 D， 也 不 知道 Lj (w) 的 梯度 。 通 过 取 一 个 随机 方向 的 步 长 ，SGD 可 以 避 开 这 个 问 
题 ， 该 方向 的 期 望 就 是 负 梯 度 。 正 如 我 们 将 看 到 的 ， 尽 管 我 们 不 知道 潜在 的 分 布 D， 但 是 
寻找 这 样 的 随机 方向 (期 望 对 应 着 梯度 ) 却 是 比较 容易 的 。 

在 凸 学 习 的 环境 中 ，SGD 相对 于 正则 化 风险 极 小 化 学 习 准 则 的 优势 是 它 是 一 个 有 效 
的 算法 ， 可 以 仅 由 几 行 代码 实现 ， 并 且 和 正则 化 风险 极 小 化 学 习 准 则 有 相同 的 样本 复杂 
度 。 这 种 简易 性 使 得 我 们 可 以 在 不 能 使 用 基于 经 验 风 险 方法 的 情况 下 使 用 SGD 方法 ， 由 
于 这 部 分 内 容 超 出 了 本 书 讨论 的 范围 ， 在 此 不 做 过 多 描述 。 

下 面 ， 我 们 先 介 绍 基本 的 梯度 下 降 算 法 并 分 析 它 求解 凸 利 普 希 次 函数 的 收敛 速度 。 然 
后 介绍 次 梯度 的 符号 并 说 明 梯 度 下 降 也 可 以 用 于 不 可 微 涌 数 。 本 章 的 核心 是 14. 3 47, 在 
这 一 节 中 我 们 将 描述 随机 梯度 下 降 算法 ， 以 及 它 的 一 些 变 型 ， 并 说 明 SGD 的 期 望 收敛 速 
度 和 梯度 下 降 的 收敛 速度 相似 。 最 后 ， 我 们 探讨 SGD 求解 学 习 问 题 的 能 力 。 


14. 1 梯度 下 降 法 

在 摘 述 随机 梯度 下 降 方法 之 前 ， 我 们 先 介 绍 极 小 化 可 微 凸 函数 f(w) 的 标准 梯度 下 降 
Wi te 

HJAR f: R’>R CE w 处 的 梯度 是 f 的 偏 导 数 ， 记 作 Vf Cw), Vf(w)= 
(SET. oy SEE). 梯度 下 降 是 一 个 迁 代 算法 。 给 定 w 的 初始 点 (wn 二 0) ， 然 后 在 
每 次 迭代 的 时 候 ， 沿 着 当前 迭代 点 的 负 梯 度 方 向 取 步 长 ， 步 长 更 新 如 下 

wit? _ w” = nVf Cw) (14. 1) 

其 中 7 >0, HR KXT y 做 讨论 。 直 观 地 说 ， 梯 度 点 是 函数 f 在 w 附近 上 升 速度 最 快 的 方 
丫 ， 算 法 取 的 是 反方 向 上 的 一 个 小 步 长 ， 因 此 可 以 降低 函数 值 。 最 后 ， 经 过 丁 次 迭代 ， 算 


T 
法 输出 一 个 平均 值 古 = 示 > w(0)。 这 个 输出 也 可 能 是 最 后 一 个 向 量 w'm 或 者 是 性 能 最 好 
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FA) E) E argmin f Cw”), 但 是 取 平 均 确实 是 有 用 的 ， 特 别 是 当 我 们 把 梯度 下 降 推 广 到 不 可 
微 函 数 和 随机 的 情形 。 

另 一 种 激励 梯度 下 降 方 法 的 方式 是 依赖 泰勒 近似 。 由 f 在 w 的 梯度 可 以 得 到 了 在 za 
附近 的 一 阶 泰勒 近似 fds fCw)+(u—-w, Vfw), K f 
为 同时 ， 这 个 近似 可 以 给 出 f 的 下 界 ， 即 

fw => flw) + (u— w,.VfCw)) 
Aro, Ew” WN w RIJA fw) = fCw ) + w 
wh, Vilw))>, Ale, FRAT AT RN te f(w) 的 近似 。 
不 过 ， 这 个 近似 对 于 离 双 ”很 远 的 w 可 能 会 失效 。 所 以 ， 
:我们 打算 联合 极 小 化 妈 与 z 妈 ”之 间 的 距离 和 了 在 媚 2 附近 
的 近似 。 如 果 参 数 7 控制 着 两 项 之 间 的 权 衔 ， 那 么 我 们 
有 下 面 的 更 新 规则 


wit) 一 argmin 4 | w — w” | 2 十 ni fw) 





n A 
+ iw — w? Vw a + keh eA 
对 w 求 导 并 令 结 果 等 于 0 可 以 得 到 和 (14. 1) 式 一 样 的 1. 25(z +6)? -+(2,—8)? 


结果 。 


柳 度 下 降 法 求解 凹 利 普 希 芯 函 数 的 分 析 

为 了 分 析 梯 度 法 的 收敛 速度 ， 在 这 里 只 考虑 凸 利 普 希 芯 函数 的 情形 (正如 我 们 所 看 到 
的 ， 许 多 问题 可 以 很 容易 表达 成 这 样 的 形式 )。 设 w"* 是 任 一 向 量 ，B Elw | 的 一 个 上 
Fo REZBA Ew 作为 f(w) 的 最 小 值 ， 但 是 下 面 的 分 析 适 用 于 每 个 w* 。 

Kw’ ， 我 们 想 要 得 到 关于 解 的 次 优 性 的 一 个 上 界 ， 即 ，f(Cw) 一 f(w* )， 其 中 十 = 


T w). h w 的 定义 和 访 生 不 等 式 ， 得 


iM- 


T 
2, w \— f(w") 


t=] 


fŒ — fiw" )= f(A 
] T 
SD, (flo? — a") 


T 
= FAHR ) (14. 2) 


对 每 个 :， 由 于 f 的 凸 性， 我 们 有 
Fw) = flw" ) <= Cw? —w* ,VfCw® )) (14. 3) 
结合 前 面 得 


fCw) — flw) Dw? —w ,Vf(w'® )) 
为 了 给 出 右 端的 界 ， et, 


5| 14. 1 TLV} 5 es Ey 是 任 一 的 向 量 序列 ， 任意 一 个 初始 点 为 w= 二 0， 迭代 准 
则 为 
(1) ( 


we” = Wi = (14. 4) 
的 算法 满足 


第 二 部 分 ”从 理论 到 算法 


T + 2 T 
H E <I aa OL (14.5) 
t=1 t=] 


2 
AAI, AEN B, p>0, RA MAH 1 AR SLU Aap MATE 
X||w* ||<B tw" 有 


l i Bo 
《 OD — ay V = 
2 VT 


=| 


证 明 利用 代数 方法 (完全 平方 ) 得 


(w? —w" = w go) 
=" | w® — w* — gv, |? + lw — w |? +7 Hod 
=g lew [P+ ew? w DHR ol 
其 中 最 后 一 个 不 等 式 由 更 新 准则 的 定义 得 到 。 对 等 式 在 : 上 求 和 ， 得 
> ww" 11) = 5 L5 bw? — |? + | wt —w* |? + BD | vw,|? (14. 6) 
右 端 第 一 个 求 和 项 是 伸缩 和 ， j“ 


| wP CETHIL) 


一 ww — w* |? 


代入 (14.6) 式 ,得 

T a 

>) wP —w" ,v0)= lw" 一 机 有 一 一 
t=] 


t=1 


Es O wan e ny 2 
Sil” w* | +H Qu lel 


i * | 2 ax 2 
<7, lw b+ Fd) Iel 


其 中 最 后 一 个 不 等 式 是 因为 w'? = 二 0。 这 证 明了 引 理 ( 式 (14. 5)) 的 第 一 部 分 。 通 过 | zw* | 的 
EFB, wv, 上 的 上 界 o， 除 以 了 并 代入 7 可 得 第 二 项 。 到 

将 引 理 14. 1 应 用 于 GD 算法 , 目 令 v, 二 Vf(w”)。 在 引 理 14. 7 中 我 们 将 说 明 ， 如 果 
厂 是 o- 利 普 硕 茨 ， 那 么 |YFCzm2: )| 和 委 o。 所 以 ， 引 理 的 条 件 得 到 满足 ， 并 且 有 下 面 的 推论 ; 


推论 14.2 设 ees w’ C argmin f(w)。 如 果 对 了 实施 T 

步 GD 算法 ， 且 令 p/p. A Mk Ew 满足 | 
Ca) — fw") <> 
进一步 ， 对 每 个 e>>0， 为 了 达到 f( 而 ) 一 /(w* )<e， 只 要 运行 GD 算法 多 次 满足 TEL 
E 

BPT, 
14.2 次 梯度 

GD 算法 要 求 函 数 f 是 可 微 的 。 我 们 现在 超出 可 微 函 数 的 范畴 来 进行 讨论 。 通过 使 用 
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f 在 w" 处 的 次 梯度 代替 梯度 ， 我们 将 看 到 GD RA t AT WA TA AT fe PK 
为 了 给 出 次 梯度 的 定义 ， 先 回顾 一 下 对 凸 函数 了 而 言 ，f Ew 处 的 梯度 定义 了 位 于 ff 


下 方 的 切线 的 斜率 ， 即 
Vu, fu) => fw) + (u—w,VfCw)) (14. 7) 


图 14.2 的 左 侧 是 关于 梯度 的 图 解说 明 。 

对 凸 函 数 而 言 ， 位 于 f 下 方 的 切线 的 存在 是 一 个 很 重要 的 性 质 。 事 实 上 ， 这 也 是 上 同性 
的 男 一 种 刻画 。 

引 理 14.3 S-AR LE., BK: S*REGDMHSARSEHAA WES, FED 
使 得 

yu E S, flu) > fw) + (u— w,v) (14. 8) 

该 引 理 的 证 明 可 以 在 许多 凸 分 析 的 教材 中 找到 (如 Borwein 和 Lewis 2006), GRAF 
让 我 们 有 了 次 梯度 的 定义 。 

定义 14. 4( 次 梯度 ) 满足 (14.8) 式 的 向 量 v 称 为 f 在 w 处 的 次 梯度 。f 在 ww 处 的 次 
梯度 的 集合 称 为 微分 集 ， 记 作 of(w). 

图 14. 2 的 右 侧 是 关于 次 梯度 的 图 解说 明 。 对 于 标量 图 数 ， 凸 函数 f 在 w 处 的 次 梯度 
是 与 f 在 w 相 接 的 一 根 线 的 斜率 ， 而 不 是 其 他 在 了 之 上 的 线 。 





图 14.2 ÆR: 式 (14.7) 的 右边 是 了 在 w 处 的 切线 。 对 是 函数 而 言 ， 这 条 切线 是 f 
的 下 界 。 右 图 : 不 可 微 凸 函数 的 几 个 次 梯度 图 解 


14.2.1 计算 次 梯度 

对 于 一 个 给 定 的 图 数 ， 如 何 构造 它 的 次 梯度 ?” 正如 下 面 的 论断 所 说 ， 如 果 函 数 在 w 
处 是 可 微 的 ， 那 么 微分 集 是 平凡 的 。 

论断 14.5 如 果 f 在 ww 处 可 微 ， 那 么 3f(w) 中 只 含有 一 个 元 素 ， 即 f Ew 处 的 梯 
度 Vf(w)， 

(绝对 值 函 数 的 微分 集 ) 考虑 绝对 值 函 数 f(x)==|zx|。 由 论断 14.5 我 们 可 


以 构造 出 了 了 可 微 部 分 的 微分 集 ， 只 有 一 个 点 需要 特别 关注 ， 即 zo 二 0。 在 那个 点 ， 容 易 验 
证 次 梯度 是 由 一 1 和 1 之 间 的 所 有 数 构成 的 集合 。 因 此 : 


{1} 如 果 工 之 0 
ofiz) 上 WR xr <0 
[一 1,1] m#2xr=0 
对 于 许多 的 实际 应 用 ， 我 们 并 不 需要 计算 在 给 定点 处 的 全 部 次 梯度 集 ， 因 为 只 要 有 集合 里 
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的 一 个 元 素 就 足够 了 。 下 面 的 论断 说 明 如 何 构造 逐 点 最 大 函数 的 一 个 次 梯度 。 < 
论断 14.6 Sr PDT ABR 1. + gro & gw) =maxg; (w). 给 定 某 个 w, A 


jEargmingi(w)， 那 么 Vgj(w)E€ og(w)。 


证 明 ”由 于 g; 是 是 的 ， 对 于 所 有 的 wu 有 
gj(U) > g;(w) + (u— w,Vgj(w)) 
又 gl(w)=¢g;(w), gwSg;u), FHA 
glu) > g(w) + (u— w,Vg; Cw)? 
这 就 证 明了 我 们 结论 。 a 
GMD 〈 合 页 损失 的 次 梯度 ) 回顾 第 12. 3 节 中 的 合 页 损失 函数 ， 对 于 某 个 向 量 x， 
E y, f(w)=max{0, 1— ylw, ，x)}。 为 了 计算 合 页 损失 在 某 个 w 处 的 次 梯度 ， 利 用 
前 面 的 论断 所 得 到 的 如 下 定义 的 向 量 v 是 合 页 损失 在 w 处 的 次 梯度 : 
0 E 1 一 yws%) <0 
v= Š 
一 yx 看 l—ylw.x) >0 


14.2.2 利 普 希 茨 函 数 的 次 梯度 
回顾 一 下 ， 如 果 对 于 所 有 的 &，zEA， 成 立 
| f — f(v) |< pllu— v| 
那么 函数 f: A 一 R 是 o- 利 普 希 茨 的 。 下 面 的 引 理 利用 次 梯度 的 范 数 给 出 了 一 个 等 价 
的 定义 。 
引 理 14.7 HARR- FLE, f: A-> 限 是 一 个 凸 函数 。 那 么 三 在 A 上 是 o- 利 普 希 
英 当 且 仅 当 对 于 所 有 的 wEA 和 vE9f(w)， 有 | 上 vp。 


证 明 假设 对 所 有 的 v€E3f(w) 成 立 |v| 二 p。 由 于 vEB3f(w)， 所 以 
w= FW) S< Co WW 
利用 柯 西 - 施 瓦 获 不 等 式 对 右 端 取 界 得 
few) — fu) S v, w—u) < |v] | w—ul<plw—u| 

一 个 类 似 的 观点 可 以 表明 fC w)— f(u)<pl| w 一 ul Ak, f 是 o- 利 普 希 芯 。 

假设 f 是 o- 利 普 希 欧 。 选 择 某 个 wEA，vE93f(w)。 由 于 A 是 开 集 ， 故 存在 e 守 0 使 
44$ u=wteo/|v| RFA. PUu—w, v)=el vi，|u 一 wl 二 e。 由 次 梯度 的 定义 得 

fu) — flw) > (v,u—w) =e v| 
为 一 方面 ， 由 f 的 利 普 希 获 性 得 
pe = plu—wl|> fw — flw) 

WRAAE, lvl] <p. x 


14.2.3 次 梯度 下 降 


利用 Fw) 在 ww 处 的 次 梯度 代替 梯度 ， 可 以 将 梯度 下 降 法 推广 到 不 可 微 函 数 。 对 于 
次 梯度 收敛 速度 的 分 析 仍 保持 不 变 ， 可 以 看 到 式 (14. 3) 对 次 梯度 同样 成 立 。 


14.3 随机 梯度 下 降 
在 随机 梯度 下 降 中 ， 我 们 不 要 求 基于 精确 的 梯度 值 来 更 新 迭代 方向 ， 而 是 允许 迭代 方 


第 J4 章 随机 梯度 下 降 119 


向 是 一 个 随机 向 量 ， 并 且 只 要 求 在 每 次 迭代 的 时 候 该 方向 的 期 望 值 和 梯度 方向 是 相等 的 。 
或 者 ， 更 一 般 地 ， 我 们 要 求 随机 向 量 的 期 望 值 是 函数 在 当前 向 量 处 的 次 梯度 。 156 
图 14. 3 给 出 了 随机 梯度 下 降 与 梯度 下 降 的 图 解 比 较 。 正 如 我 们 将 在 14. 5 市 看 到 的 ， 

在 学 习 问 题 的 环境 中 ， 容 易 找 到 一 个 随机 向 量 ， 该 向 量 的 期 望 是 风险 函数 的 次 柳 度 。 





图 14.3 梯度 下 降 法 ( 左 ) 和 随机 梯度 下 降 法 ( 右 ) 的 图 解 。 极 小 化 的 函数 是 1. 25 Ca +6)? + 
(y 一 8)*。 对 于 随机 的 情形 ， 实 线 描述 的 是 w 的 平均 值 


极 小 化 f(w) 的 随机 梯度 下 降 法 (SGD) 
参数 ， 标 量 >0， 整 数 T>0 
初始 化 : w =0 
for 上 一 1，2，…， 工 


以 一 个 分 布 随机 选择 v,， 使 得 Elv, (w |e aflw™ ) 
2 aw) = yz — nv, 








SGD 求解 凸 利 普 希 菊 有 界 洱 数 的 分 析 

回顾 一 下 推论 14.2 中 得 到 的 GD 算法 的 界 。 对 于 随机 的 情形 ， 只 有 w, 的 期 望 属 于 
3f(w"”)， 故 不 能 直接 应 用 式 (14. 3)。 然 而 ， 由 于 w, 的 期 望 是 f 在 w" 的 一 个 次 梯度 ， 所 
以 我 们 还 是 可 以 得 到 一 个 类 似 的 界 ， 该 界 是 关于 随机 梯度 下 降 的 期 望 输 出 ， 这 可 以 表述 为 
下 面 的 定理 。 


定理 14.8 KB, o>0, fxe—-A BHR, w Cargmin f(w). 假设 SGD 运行 工 


2 
次 ， EF 且 对 于 所 有 的 tz， 以 概率 1 成 立 | ui|< po， 那么 有 


= B 
El fCw) |— flw") <2 157 
JT 
所 以 ， 对 于 任意 的 es 盖 0， 要 达到 El fw) ]— flw Me, RBG SGD 的 次 数 满足 
2 2 
TSOP eT, 


WEAR 首先 引入 一 个 符号 vi,,， 它 表 示 序 列 wi， Ss Ore 对 式 (14. 2) 两 边 取 期 望 ， 得 


l 
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ri 
BUDS] BL RD] SWD fo) 
既然 引 理 14. 1 对 于 任意 的 序列 vi vo. om, vr 都 成 立 ， 那 么 它 也 可 以 用 于 SGD. 对 该 引 
理 中 的 界 取 期 望 ， 得 


T 
] (7) x B 
为 | 二 > 《wo 一 za》 |< (14. 9) 
E> | VT 
还 需 证 明 


B [#2 w”) flw )) |< B[ FD (w? —w | (14. 10) 


t=] 


wie rp ial 
利用 期 望 的 线性 ， 
B | 二 Ewou sv, ) |= E>) Bw? —w" ;> | 


接 下 来 ， 先 回顾 一 下 全 期 望 法 则 ， 对 每 两 个 随机 变量 as B MAZU g. ELeladl= 
EE lela) |B] Savin» PE viis F 
E[ lw. — w" v) |= Ellw” —w* ,v,) ] 


k y j 


= E B[iw? — w" ,v,) | vim ] 


v) itl vi if 


一 旦 我 们 知道 了 mm ，z22 的 值 就 不 再 是 随机 的 了 ， 所 以 
E Bliw”’ —w*,v,)| vini] = E (wo —w" Elv, lv <4 |} 


Lb ee om Wd Vial 


由 于 zw2 只 依赖 于 zw H SGD 要 求 Blv, w” EG”) FHA Elv, lia JE 


of(w”), AU. 
机 《we —w* Elv, 1) > „E [ fCw™) — fCw"* )] 


总 的 来 说 ， 我 们 证 明了 
El<w” —w",v,) |> pE Fw) = fw" yj = E LFW”) = Flu" )] 


T 


X$ OKRA, BRA T, 再 使 用 期 望 的 线性 ， AY ASK 14. 10) 成 立 ， 


14.4 ”SGD 的 变型 
在 这 一 节 中 我 们 介绍 几 个 随机 梯度 下 降 的 几 种 变型 。 


14.4.1 增加 一 个 投影 步 


前 面 对 GD 和 SGD 的 分 析 中 要 求 w* 的 范 数 至 多 为 B， 也 就 是 要 求 w* 属于 集合 一 
w: 上 wl| 志 B}。 从 学 习 的 角度 说 ， 这 意味 着 我 们 要 将 考虑 的 范围 限制 到 一 个 以 B 为 界 的 
假设 类 中 。 然 而 ， 在 与 梯度 相反 的 方向 (或 者 它 的 期 望 方 向 ) 上 取 的 每 一 个 步 长 都 可 能 导致 
走出 这 个 界 ， 甚 至 不 能 保证 w 满足 这 个 条 件 。 下 面 ， 我 们 说 明 如 何在 保持 相同 收敛 速度 
的 同时 克服 这 一 问题 。 

基本 的 想法 是 增加 一 个 投影 步 ; 也 就 是 说 ， 我 们 采用 一 个 两 步 更 新 准则 ， 首 先 减 去 当 
前 w 处 的 值 的 次 梯度 ， 然 后 将 得 到 的 向 量 投 影 到 和 上 ， 形 式 上 可 表示 为 : 


1. wy R) = w? —n»v, 
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2. wt? =argminyex | w—witt2) | 
MERAH PSS w 最 近 的 那个 向 量 来 替代 当前 的 w。 
显然 ， 投 影 步 保证 了 对 于 所 有 的 上 PAw? EHX。 由 于 KH 是 凸 的 ， 这 也 意味 着 w EX。 


Fi. 我们 说 明 对 具有 投影 策略 的 SGD 的 分 析 依然 不 变 。 该 分 析 基 于 下 面 的 引 理 。 

引 理 14. 9( 投 影 引 理 ) BHAT AMGK, v ew 在 戏 上 的 投影 ， 即 

v = argmin |x— w ||? 
xEH 
然后 ， 对 每 个 ucH, 
|| w —ull? — |o — uj >0 
证 明 FHA SER, MRED ae (0, DA vtalu—vdEH, PL, H v 的 最 优 性 得 
lo —wl?< |vu+atu—v)— wl’? 


= |v— w|? + 2a(v—weu—v) +e lu — v|? 


整理 得 
2(v— w.u— v) >—a |u— v|’ 
当 a->0 有 
人 
于 是 


| w —all’?= |w—v+0-al’ 
= |w— v|? + |o — ul? +2lv— w,u— v) >| v—al’ 
结合 前 面 的 引 理 ， 我 们 可 以 很 容易 将 对 SGD 的 分 析 适 用 于 此 情况 ， 即 在 一 个 闭 凸 集 上 加 
了 投影 步 。 只 需要 注意 对 每 个 + 有 


Eii a — Peo — ay" |? 
=| wv? — w* |? — wd) —w* |? + wo) — w* [2 — | w® —* |? 
<|| w(t) —w* |?—|w® — w* |? 


所 以 ， 当 我 们 增加 了 投影 步 后 引 理 14. 1 也 是 成 立 的 ,. RIAA PT BoM A] DA PASE), m 


14.4.2 Bok 
SGD 的 另 一 个 变化 形式 是 把 对 步 长 的 减 小 看 成 是 关于 上 的 一 个 函数 。 就 是 说 ， 不 再 使 用 
B 


一 个 常数 步 长 7， 而 是 用 为。 例如 ， 我 们 可 以 令 p= SEL AT DLS HA. 8 YD 
p 


的 界 。 思 想 是 当 我 们 非常 靠近 函数 极 小 值 的 时 候 ， 选 择 步 长 就 要 更 仔细 ， 以 免 超 过 极 小 值 。 
14. 4.3 其 他 平均 技巧 

我 们 令 输出 的 向 量 是 古 一 永光 wo。 还 有 其 他 的 输出 方法 ， 如 随机 输出 一 个 w?，+E [2 
或 输出 过 去 aT 次 迁 代 的 w® 的 平均 值 ，a€ (0，1)。 还 可 以 取 最 近 几 次 迭代 的 加 权 平 均 。 在 
某 些 情况 下 ， 这 些 更 复杂 的 平均 策略 可 以 提升 收敛 速度 ， 如 下 面 定义 的 强 凸 函 数 。 
14.4.4 RARR 


X HRIH SGD 的 一 个 变型 ， 当 问题 的 目标 函数 是 强 凸 ( 见 前 一 章 关 于 强 凸 的 
定义 13. 4) 时 ， 该 方法 有 更 快 的 收敛 速度 。 这 依赖 下 面 的 论断 ， 它 是 引 理 13. 5 的 推广 。 
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论断 14.10 如果 厂 是 人 一 强 凸 的 ， 那 么 对 于 每 个 w, uFevedoflw KZ 
(w— u,v) > fw) — fu) +4 | w —ull? 


证 明 过 程 和 引 理 13. 5 的 证 明 类 似 ， 我 们 将 它 留 作 练 习 。 


极 小 化 入 - 强 凸 函数 的 随机 梯度 下 降 
目的 : 求解 minf(w) 
wEH 

参数 : T 
初始 化 : w = 
for t=1, +, T 

随机 选择 一 个 向 量 v,， 使 得 Elv, |w Jeaflw™ ) 

4 =l (42) 

Awt) =w D— yv, 


Aw “D =argmin|| w — vg htt2) ||? 





定理 14.11 BE f ÆA- LH, ELl ol] Aw" Eargminf(w) 是 一 个 最 优 
解 ， 那 么 
EL fw) |]— flw") < LFO + log(T)) 


证 明 SVO =E v |w]. A fRA, VOE f Ew 处 的 次 梯度 集中 ， 从 而 有 





(w? —w"* Vv) = flw)— flw +4 |w — w" |? (14.11) 
接 下 来 ， 我们 证 明 
Fl a voy SD Sw" ew Fe, 2 (14.12) 
N: 
因为 w+? 是 wm3) 在 XW 上 的 投影 ，w* CH, Aw) —w 2S] wt —w" 2, R, 
| w? —w* |? —| wot” — w" [72> | wo? — w* |? — jasan =~” | 
= ylw — w” 50.) — ni |v. |? 


对 上 式 两 边 取 期 望 ， 重 新 整理 ， 再 结合 假设 EL? I< AMARTH 12), Xt HE 
式 (14. 11) 和 式 (14. 12)， 对 1 求 和 得 


oi 
>) (ELS Cw )] — flw" )) 
t=] 


(t) * 2 ( ) = 
t+ — yy |2 


T gi 
w — W — | Ww A (1) x || 2 
<E| > ( Dy -5 |w?—w" | +d» 
接 下 来 ， 利 用 定义 p=) ALE BAI — TOR AAT Oy —AT | wT w" <o. 
因此 ， 


T 2 
SUELA w] — fw" )) <ET < P C+ log(T)) 
=i t=1 
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两 边 除 以 T， 再 利用 詹 生 不 等 式 即 得 结论 。 B 
评注 ”Rakhlin，Shamir 和 Sridharan(2012) 得 到 一 个 收敛 速度 ， 其 中 log DX — ANER 


{i 
算法 而 言 消失 了 。 在 该 算法 中 ,输出 的 是 最 近 T/2 次 迭代 的 平均 , Bw =D) w. 
Shamir 和 Zhang(2013) HEHH SUR w= w, ER 14. 11 也 是 成 立 的 。 


14.5 用 SGD 进行 学 习 
我 们 已 经 介绍 和 分 析 了 SGD 方 法 求解 一 般 的 凸 函 数 。 下 面 我 们 将 考虑 其 学 习 任务 的 能 力 。 


14.5.1 SGD 求解 风险 极 小 化 


回顾 一 下 在 学 习 中 我 们 面临 的 问题 是 极 小 化 风险 肾 数 
Ly w) = Eléw,z)] 
我 们 看 到 经 验 风险 极 小 化 方法 极 小 化 的 是 经 验 风 险 Ls(w)， 是 对 极 小 化 Lp (zm) 的 一 个 佑 
it. SGD 允许 我 们 采用 不 同 的 方法 可 以 直接 极 小 化 Lp (w)。 因 为 我 们 不 知道 D， 所 以 不 
能 简单 地 计算 vL,(w)， 也 不 能 通过 GD 方法 来 极 小 化 Lp (zw) 。 而 用 SGD， 我 们 需要 做 的 
是 找到 Lp (w) 梯 度 的 一 个 无 偏 估 计 ， 即 条 件 期 望 值 为 YLp (w”) 的 一 个 随机 向 量 。 现 在 ， 
我 们 将 看 到 怎样 的 一 个 估计 能 够 简单 地 构造 出 来 。 

为 简单 起 见 ， 我 们 首先 考虑 目标 果 数 是 可 微 的 情形 。 因 此 ， 风 险 函 数 Lj 也 是 可 微 的 。 
随机 向 量 v, 的 构造 如 下 : 首先 ， 采 样 一 D， 再 定义 zw 为 关于 w 的 损失 函数 E(w，z) 在 
w" 处 的 梯度 。 然 后 ， 由 梯度 的 线性 得 

El v, |w” | = Elvécw® i | = V E Lew »z) | = VLp lw” ) (14. 13) 
所 以 ,损失 函数 4(w，z) 在 w”" 处 的 梯度 是 风险 函数 Lj,(w"” ) BER —T oa. FAL 
这 个 梯度 是 可 以 通过 在 1 A pr —~ Poteet z 一 DD 来 构造 。 
同样 的 论点 对 不 可 微 的 损失 函数 也 是 成 立 的 。 令 v, 是 4(w，z) 在 w” 处 的 次 梯度 。 那 
么 ， 对 于 每 个 & 有 
Ci 一 人 yi) > (ua — w™ t) 
两 边关 于 z 一 DD 取 期 望 ， 关于 w"" 取 条 件 ， 得 
Lp(u— Lp (Cw ) = Elelu, z) — Lw” sz)| w® IE w™ , 0,) | w] 
i = (u— w” , El v, |w ]) 
从 而 EL, (w FE Lp (Cw) TE w” 处 的 次 梯度 。 
简 言 之 ， 极 小 化 风险 函数 的 随机 梯度 下 降 框架 如 下 。 


极 小 化 Lp (w) 的 随机 梯度 下 降 (SGD) 
参数 : 标量 1 >0, KH TOO 
初始 化 : w” =0 
fort=—1, 2, e, T 
采样 z~D 


选择 v, EOl(w'?， 2 之 ) 
Lew w —nv, 
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我 们 将 利用 对 SGD 的 分 析 来 得 到 凸 利 普 希 奖 有 界 学 习 问 题 的 样本 复 林 度 。 由 定 
FE 14. 8 可 得 下 面 的 推论 。 


推论 14.12 ”考虑 带 有 参数 p 和 B 的 凸 利 普 硕 蒋 有 界 学 习 问 题 。 对 每 个 es 盖 0， 如 果 我 
们 运行 极 小 化 Lp (w) #5 SGD FEH RRRA OPERAT >EE a q= 3 那么 
SGD 的 输出 满足 

ELL, (w) | < minLp (w) +e 

有 趣 的 是 所 需 的 样本 复杂 度 和 对 正则 化 损失 极 小 化 得 到 的 样本 复杂 度 保 证 是 一 个 量 级 
的 。 实 际 上 ，SGD 的 样本 复杂 度 甚至 比 我 们 从 正则 化 损失 极 小 化 得 到 的 因子 为 8 的 样本 复 
Ae AE BE YF 
14.5.2 SGD 求解 凸 光 滑 学 习 问 题 的 分 析 


在 前 一 章 中 我 们 看 到 正则 化 损失 极 小 化 准则 也 可 以 学 习 一 类 凸 光 滑 有 界 的 学 习 问 题 。 
现在 我 们 来 证 明 SGD 算法 也 可 以 用 来 求解 这 类 问题 。 


定理 14.13 假设 对 于 所 有 的 =， 损失 函数 &(。，z) 是 凸 的 ，B- 光 滑 的 且 非 负 ， 习 
如 果 利 用 SGD 求解 Li,(w)， 对 于 每 个 w* 有 


— 1 ‘ ll w* |? 
BLL w] < yg (Low + oat 





证 明 注意 到 如 果 一 个 函数 是 8- 光 滑 的 且 非 负 ， 那 么 它 是 自 有 界 的 ， 即 有 
Ivf Cw)l? < 28f Cw) 
为 了 分 析 SGD 求解 凸 光滑 问题 ， 我 们 定义 SGD 算法 的 随机 样本 za, s zr, 令 f.(…)= 
+, 2), w=Vhi Cw), SRAM ts f BPR, MA fF, Cw”) —f.(w" <6, 
w—w*), Xt RM, 再 利用 引 理 14 1 得 


D fib?) fw )) = Ye, = Be ae | 2 Mel’ 
结合 fe 的 自 有 界 性 得 mi 
PA A 
BRU 工 再 重新 排列 得 
FIs 44 SA w" lel") 


接 下 来 ， 对 前 一 个 式 子 的 两 边关 于 Wy y ZT 取 期 望 WA, ELS, Cw" )J=Lp(w" )。 
此 外 ， 利 用 证 明定 理 14. 8 相同 的 论据 可 得 
Bl FD fw” ) |= 8 Flow) [> BLL] 
综 上 结论 得 证 。 a 
可 以 直接 得 到 如 下 推论 : 


推论 14.14 考虑 一 个 带 有 参数 B 和 B 的 凸 光 滑 有 界 的 学 习 问 题 ， 假 设 对 所 有 的 EZ 
有 LC(0，z) 过 1。 对 每 一 个 >, ee 那么 运行 SGD 算法 T 宇 12B?B/e? 次 成 立 
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E[Lp(w)] <minLp(w) +e 


14.5.3 SGD 求解 正则 化 损失 极 小 化 

我 们 已 经 证 明了 在 最 坏 的 情况 下 SGD 也 有 着 和 正则 损失 极 小 化 相同 的 样本 复杂 度 。 
然而 ， 在 某 些 分 布 上 ， 正 则 损失 极 小 化 可 能 会 产生 更 好 的 解 。 所 以 ， 在 某 些 情况 下 我 们 还 
是 想 要 求解 与 正则 化 损失 极 小 化 相关 联 的 优化 问题 ， 即 ，2 

min( $| w? | + Ls(w) ) (14. 14) 

由 于 我 们 处 理 的 是 西学 习 问 题 ， 其 中 损失 函数 是 凸 的 ， 正 如 我 们 在 本 节 将 看 到 的 ， 上 
面 的 问题 也 是 凸 优化 问题 ， 同 样 可 以 用 SGD 来 求解 。 

EX f(w)=4 | wl? +Ls(w), ERB f 是 X - 强 凸 函数 ;所 以 ， 我 们 可 以 利 
Fg 14.4.4 WHR) PAH SGD 的 变型 进行 求解 。 为 了 应 用 该 算法 ， 我 们 只 需 找 到 一 
种 方式 构造 f Ew 处 次 梯度 的 无 偏 估计 。 注 意 到 ， 如 果 我 们 从 S 中 均 勺 地 选择 zx， 且 选 
Fev, EHW, z), BAAw” +v, 的 期 望 值 就 是 S Ew 处 的 次 梯度 。 

为 了 分 析 得 到 的 算法 ， 我 们 先 将 更 新 准则 (假设 驮 三 梧 ， 所 以 投影 步 就 不 重要 了 ) 重 与 
如 下 : 


wit) — ..t _ 4 (2) a th it a lw ey RED 7 R S 
w= w yp Aw + wv) (1 和 mig 和 
_, #—Ljt=—2 . aay ] ae A eee S 
her = w F ve | y”! T 2 vi; (14. 15) 


如 果 假 设 损失 函数 是 o- 利 普 希 茨 ， 从 而 对 于 所 有 的 上 有 | ve, |<. PUA ||Aw® |<o, BE—-2E49 
alw” + v, |< 20 
所 以 定理 14. 11 告诉 我 们 执行 次 迭代 后 有 


2 
EL fGo)]— fw") <a joe TN 


14.6 小 结 


我 们 介绍 了 梯度 下 降 和 随机 梯度 下 降 算 法 ， 连 同 它们 的 一 些 变化 形式 。 分 析 了 它们 的 
收敛 速度 ， 计 算 了 可 以 确保 期 望 目标 至 多 是 e 加 上 最 优 目 标的 迭代 次 数 。 最 重要 的 是 我 们 
证 明了 使 用 SGD 可 以 直接 极 小 化 风险 函数 。 这 是 通过 从 D 中 独立 同 分 布地 采样 得 到 一 个 
尽 ， 并 使 用 损失 函数 在 当前 假设 w" 处 的 次 梯度 作为 风险 函数 梯度 (或 次 梯度 ) 的 无 偏 佑 计 
来 实现 的 。 这 意味 着 和 迭代 次 数 的 界 也 能 得 到 样本 复杂 度 的 界 。 最 后 ， 我 们 说 明了 如 何 将 
SGD 应 用 到 正则 化 风险 极 小 化 中 。 在 下 面 的 章节 中 ， 我 们 将 说 明 SGD 如 何 得 到 求解 与 正 
则 化 风险 极 小 化 相关 联 的 优化 问题 的 非常 简单 的 算法 。 


14.7 文献 评注 


SGD 可 以 追溯 到 文献 Robbins 和 Monro(1951)。 在 大 规模 机 器 学 习 问 题 中 ，SGD 方 
法 是 特别 有 效 的 ， 可 参考 文献 Murata( 1998), Le Cun(2004), Zhang(2004), Bottou 和 
Bousquet (2008), Shalev-Shwartz, Singer 和 Srebro (2007), Shalev-Shwartz 和 Srebro 


O 4X4 除 以 2 是 为 了 方便 计算 。 
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"14.4 ZPK: 证 明 一 个 与 定理 14. 8 的 类 似 的 结论 ， 即 SGD 取 一 个 变 步 长 了 一 
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(2008) 。 在 优化 领域 ， 它 是 在 随机 优化 的 背景 下 被 研究 的 ， 可 参考 文献 Nemirovski 和 
Yudin( 1978), Nesterov 和 Nesterov (2004), Nesterov (2005), Nemirovski, Juditsky, 
Lan 和 Shapiro(2009), Shapiro, Dentcheva 和 Ruszcezynski( 2009) ) 。 

RIETER A eR h eR AY) FE ANF Hazan, Agarwal 和 Kale (2007)。 正 如 前 
面 提 到 的 ， 改 进 的 界 可 以 参考 文献 Rakhlin, Shamir 和 Sridharan(2012) 。 


14.8 练习 


14. 1 证 明 论 断 14. 10。( 提 示 : 扩展 引 理 13. 5 的 证 明 。) 
14.2 证 明 推论 14. 14。 
14.3 感知 器 作为 次 梯度 下 降 算 法 : 令 S=((xi, yids ts (Xm Ym) ERX”, 
假设 存在 we RR 使 得 对 每 个 ziE Lm EBA ylw, x)>l, Sw 是 满足 前 面 要 求 的 
所 有 向 量 中 范 数 最 小 的 一 个 。 设 R=maxl al, EX RZ 
fw) = max(1 — yi Ww +X;)) 
e HIH min f(w)=0, AE fCw)<1 的 任意 的 w 能 分 离 S 中 的 样本 。 


w: || wll <I w" || 


o 说 明 如 何 计算 f 的 次 梯度 。 
o 摘 述 并 分 析 这 种 情况 下 的 次 梯度 下 降 算法 。 将 该 算法 和 9. 1. 2 节 中 的 批 处 理 感知 
人 算法 进行 比较 和 分 析 。 


,看 
pvt 
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本 章 以 及 下 一 章 中 我 们 要 讨论 一 种 非常 有 用 的 机 器 学 习 工 具 : 在 高 维特 征 空 间 学 习 线 
性 预测 器 的 支持 向 量 机 (SVM) 。 在 高 维特 征 空间 中 ， 同 时 要 面临 样本 复杂 度 和 计算 复杂 
度 的 挑战 。 

SVM 算法 通过 搜索 “大 间隔 ”分 类 器 来 应 对 样本 复杂 度 的 挑战 。 粗 略 地 说 ， 如 有 果 所 
有 的 样本 不 仅 被 分 类 超 平面 正确 分 开 并 且 远 离 分 类 超 平面 ， 那 么 我 们 就 说 一 个 半空 间 用 大 
间隔 分 开 了 训练 样本 集 。 该 算法 要 求 输出 一 个 有 着 大 间隔 的 分 类 需 甚 至 可 以 在 特征 空间 维 
度 很 高 (甚至 无 穷 ) 的 情况 下 得 到 一 个 小 的 样本 复杂 度 。 我 们 将 介绍 间隔 的 概念 并 将 其 与 正 
则 损失 最 小 化 以 及 感知 器 算法 的 收敛 速率 联系 起 来 。 

在 下 一 章 中 我 们 将 用 核 的 概念 来 应 对 计算 复杂 度 的 挑 成 。 


15. 1 间隔 与 硬 SVM 


& S=(x1; Vi)， esse (Xm yn) 是 训练 样本 集 ， 其 中 每 个 x; ER， y,E{t1}. 如 果 存 
在 一 个 半空 间 (w，b5)， 使 得 对 于 所 有 i, A y; 二 sign(《w，x;) 十 6)， 我 们 就 说 该 训练 集 是 
线性 可 分 的 。 这 个 条 件 也 可 以 写 为 

ViE [m].y;((w.x;,) +b) >0 

所 有 满足 该 条 件 的 半空 间 (w，5) 都 是 ERM 假设 (它们 的 0 一 1 RAN 0, Ae a) REN iR 
差 )。 对 于 任何 可 分 的 训练 样本 ， 存 在 着 很 多 ERM 半空 间 。 那 么 ， 学 习 器 会 在 它们 之 中 
挑选 哪个 作为 最 终 输 出 呢 ? 

比如 考虑 训练 集 如 下 图 所 示 : 





当 虚 线 与 实 线 均 分 开 了 这 4 个 样本 ,我 们 直观 地 会 选择 虚线 而 不 是 实 线 。 一 种 将 这 种 
直观 形式 化 的 方式 就 是 用 间隔 的 概念 。 

定义 超 平面 在 训练 集 上 的 间隔 为 训练 集中 的 点 到 超 平面 的 最 短 距 离 。 如 果 一 个 超 平面 
有 大 的 间隔 的 话 ， 尽 管 每 个 样本 有 小 的 扰动 ， 该 超 平面 仍 将 分 开 训 练 集 。 

我 们 之 后 将 会 看 到 半空 间 的 误差 可 以 由 其 在 训练 样本 上 的 间隔 来 界定 (间隔 越 大 ， 误 
差 越 小 ) ， 而 与 该 半空 间 的 欧 几 里 得 维度 无 关 。 

使 SVM 是 一 种 学 习 规则 ， 在 这 种 规则 下 我 们 可 以 得 到 一 个 用 最 大 可 能 间隔 分 开 训 练 
集 的 ERM HHFH. AT ERWEE SVM, 我们 首先 用 定义 半空 间 的 参数 来 表示 一 个 点 
x 到 超 平 面 的 距离 。 
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| w|=1. 
证 明 ”定义 一 个 点 x 到 超 平 面 的 距离 为 
min{|x— wv):(w,v) b= 0} 
取 v=x—(iw, x)+b)w, AG 
(wv) +b = (w,x) —(Cw,x) +6)] wl? +6=0 
以 及 
|x—vll= |<w,x)+| | wl = |<w.x) +] 
因此 ， 该 距离 至 多 为 | (w，x) 十 b| 。 接 下 来 ， 取 超 平面 上 另外 一 个 点 &， 因 此 有 ( 妈 ，z 十 
b=0. Ill 
|x—ull?= |x—v+v—ual’ 
= |x—v|?+]v—al’? +2(x—v,0—u) 
> |x— v|? +2(x—v,v—u) 
= |x— vl? +2 lw, x) +b)lw,v— u) 
= |x— vl? 
其 中 最 后 一 个 等 式 成 立 的 原因 是 (w，w) 二 (w，w) 二 一 b。 因 此 ， x 与 的 距离 至 少 为 x 与 
v 的 距离 ， 证 毕 。 a 
EX} 仑 断 的 基础 是 认为 训练 集 到 分 类 超 平面 的 最 近 点 是 min | Cw, Bs | 


硬 SVM 规 则 为 : 


remax min | (wsx +b] ste Viry: C wx) +5) >0 
当 上 述 问 题 有 解 ( 即 可 分 情况 )， 我 们 可 以 写成 如 下 等 价 问题 ( 见 练习 15.1): 
atgmax, minyi((w,xi) +b) (15.1) 


接 下 来 ,我 们 用 二 次 优化 问题 ? 的 形式 给 出 硬 SVM 的 另 一 种 等 价 形式 : 


输入 : CX» yi)» TE h eA Vm) 
OK 
(Wos ba) =argmin|| w ||’ St Wis wtiw, Thl 


ls OTT’ Tad 





接 下 来 的 引 理 将 说 明 硬 SVM 的 输出 确实 是 最 大 间隔 的 分 类 超 平面 。 直 观 上 讲 ， 硬 
SVM 是 在 搜索 这 样 的 w， 即 在 所 有 疝 量 中 有 着 最 小 范 数 分 开 了 原 数 据 并 且 对 于 所 有 i, 
1《w，xi) 十 5b| 宇 1。 换 言 之 ， 我们 可 以 强制 间隔 就 是 1， 但 现在 要 通过 w 的 范 数 来 度量 间隔 
的 大 小 。 因 此 ， 找 有 最 大 间隔 半空 间 的 问题 就 变 成 了 找 有 着 最 小 范 数 w 的 问题 。 正 式 地 : 


引 理 15.2 硬 SVM 的 输出 是 式 (15. 1) 的 一 个 解 。 


证 明 令 (w* ,6b" ) 是 式 (15.1) 的 一 个 解 ， 定 义 由 (w* ，b" ) 得 到 的 间隔 为 ”一 
miny; (¢w" ` By Ja 因此 ， 对 于 所 有 的 ls 有 


O 二 次 优化 问题 就 是 目标 函数 为 凸 二 次 函数 且 限 制 条 件 为 线性 不 等 式 的 优化 问题 。 
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yi sR eh oe 
也 即 
n m 
s(a +>] 


因此 ， 这 样 的 对 (区 W ERAS. DA Hi A — OO A A AF. DBL wols 


[e =E. EA i, 


A A, 1 1 = 
; ; == 3 2w; 之 之 
yi { w Xi) +b) Two 28S” x;) + bo) | Y 
由 于 | 多 |=1， 可 得 (w， 依 就 是 式 (15. 1) 的 最 优 解 。 加 


15.1.1 齐 次 情况 


考虑 齐 次 半空 间 往往 更 为 方便 ， 即 ， 半 空间 是 通过 原点 的 ， 因 此 可 以 被 定义 为 
sign(《w，x))， 其 中 偏差 项 5 为 0。 硬 SVM 在 齐 次 半空 间 条 件 下 就 是 求解 下 式 : 
min|| w |’ st Wisgi wk) 2 l C15, 3) 


如 同 我 们 在 第 9 OZ 么 讨论 过 的 ， 我 们 可 以 将 一 个 非 齐 次 半空 间 的 学 习 问 题 退化 成 一 
个 齐 次 半空 间 的 学 习 问 题 ， 只 需 给 每 个 实例 x; 增加 一 维特 征 ， 即 将 特征 维度 增加 为 d 十 1。 

注意 ， 虽 然 式 (15. 2) 中 给 出 的 优化 问题 不 约束 偏差 项 5， 但 是 如 果 我 们 用 式 (15. DÆ 
民 "*! 上 学 习 半 空间 ， 那 我 们 也 将 会 约束 偏差 项 ( 即 ， 权 重 向 量 的 第 d 十 1 个 分 量 )。 然 而 ， 
对 2 的 正则 通常 对 于 样本 复杂 度 不 会 产生 一 个 显著 的 影 啊 。 


15.1.2 TE SVM 的 样本 复杂 度 


回想 在 IR? 上 半空 间 的 VC 维 是 d 十 1。 则 学 习 半 空间 的 样本 复杂 度 随 着 问题 的 维度 而 
增长 。 更 进一步 地 ， 学 习 的 基本 定理 告诉 我 们 如 果 样 本 数 明 显 小 于 d/e， 将 没有 能 学 习 到 
s- 精 确 的 半空 间 的 算法 。 这 个 问题 在 d 很 大 时 尤其 显著 。 

为 了 解决 该 问题 ， 我 们 将 对 潜在 的 数据 分 布 作 一 个 附加 的 假设 。 特 别 地 ， 我 们 将 定义 

一 个 “用 间隔 y 可 分 ”的 假设 ， 并 且说 明 如 果 数 据 可 由 间隔 yy 分 开 ， 那么 上 述 问 题 的 样本 
复杂 度 将 由 1/7 的 函数 界定 。 这 就 是 说 哪怕 维度 很 大 (其 至 是 无 限 ) 的 ， 只 要 相关 的 数据 
是 在 某 个 间隔 下 可 分 的 ， 我 们 仍 可 得 到 一 个 小 的 样本 复杂 度 。 这 与 学 习 的 基本 定理 给 出 的 
下 界 是 不 矛盾 的 ， 因 为 我 们 此 时 对 潜在 的 数据 分 布 作 了 一 个 额外 的 假设 。 

在 我 们 正式 地 定义 间隔 可 分 假设 之 前 ， 需 要 考虑 一 个 尺度 问题 。 设 想 一 个 训练 集 S= 
(xis Ms ts (Xms Ym) FABRA y 可 分 ， 即 式 (15.1) 的 最 大 目标 阻 数值 至 少 为 Y。 那 么 ， 
对 于 任意 正 的 尺度 因子 a 二 0， 训 练 集 S' = 二 (axi，y1)，…，(ax，y) 将 由 间隔 ay 分 开 。 
这 就 是 说 ， 一 个 对 数据 简单 的 尺度 变化 可 以 使 得 训练 集 由 任意 大 的 间隔 分 开 。 所 以 为 了 给 
间 隅 一 个 有 意义 的 定义 ， 我 们 必须 同时 考虑 样本 的 尺度 。 一 种 将 上 述 想 法 形式 化 的 方式 就 
是 考虑 如 下 定义 。 


定义 15.3 令 D 是 在 民 X{ 土 1} 上 的 分 布 。 我 们 说 D 由 (Y，p)- 间 隔 可 分 ， 如 果 存 在 
Cw", b* ) 使 得 |w" | 二 1]， 且 以 1 的 概率 在 (Y，J 习 一 也 的 选择 下 有 yw, x") +b") Sy 
YAR||x|<p 成 立 。 类 似 地 ， 我 们 说 也 由 (y，p)- 间 隔 用 齐 次 半空 间 可 分 ， 如 果 上 述 成 立 并 

且 半 空间 取 (w* ，0) 的 形式 。 


130 ”党 二 部 分 从 理论 到 算法 


在 本 书 的 进 阶 部 分 (第 26 章 ) ， 我 们 将 会 证 明 硬 SVM 的 复杂 度 由 (o/7)2 决定 并 且 与 维 
度 4 无 关 。 特 别 地 ， 第 26. 3 节 中 定理 26. 13 表述 如 下 : 

定理 15.4 令 D 是 在 民 X{ 土 1} 上 的 分 布 且 满 足 采 用 齐 次 半空 间 下 的 (Y，p)- 间 隔 可 分 
假设 。 那 么 ， 在 选择 大 小 为 m 的 训练 集 后 ， 以 至 少 1 一 6 的 概率 有 硬 SVM 输出 的 0 一 1 误 


差 最 多 为 
/4 (o/y) 2log(2/8) 
m m 


评注 (间隔 与 感知 器 ) 在 第 9. 1. 2 节 中 ， 我 们 已 经 描述 并 分 析 了 用 感知 器 算法 来 找到 
关于 半空 间 类 的 ERM 假设 。 特 别 地 ， 在 定理 9. 1 中 我 们 给 出 了 感知 器 在 一 个 给 定 训 练 上 
可 能 需要 迭代 次 数 的 上 界 。 在 练习 15. 2 中 可 以 说 明 这 个 上 界 确 切 地 是 (p/Y)*”， 其 中 6。 是 样 
本 的 半径 ，y 是 间隔 。 


15.2 $k SVM 与 范 数 正则 化 


fii SVM 的 形式 假定 了 训练 集 是 线性 可 分 的 ， 这 其 实 是 一 个 很 强 的 假设 。 软 SVM 可 
以 认为 是 对 硬 SVM 规则 的 一 种 放松 ， 因 此 可 以 在 训练 集 不 是 线性 可 分 时 应 用 。 

在 式 (15. 2) 的 优化 问题 中 ， 有 一 个 很 强 的 限制 ， 即 对 于 所 有 i， 有 yC w, x) tb) > 
1。 一 个 很 自然 的 放松 就 是 允许 该 约束 变 成 对 于 训练 集中 的 一 些 样本 不 成 立 。 即 引入 一 些 
非 负 松弛 变量 站 用 约束 Yi CCW, x;) +b) 21—-& 替代 约束 yi (w, “tbl, 
这 就 是 说 ，& 度量 了 约束 y Cw, x) tbl 不 满足 的 程度 。 软 SVM 联合 最 小 化 w 的 范 
数 ( 有 间隔 相关 ) 与 & 的 平均 (与 约束 不 满足 的 程度 有 关 )。 二 者 的 权衡 用 参数 4 来 控制 。 因 
此 ， 软 SVM 优化 问题 如 下 : 


输入 : (Xis yi)» eeo (Wy Vad 
参数 : 4 二 0 
求解 : 


WW Wty 
min (A | w| +7 U6) 


S. E Wes yi(Cw, 2) +b) 21-6 £620 
输出 : w, b 





我 们 可 以 将 式 (15. 4) 重 写 为 正则 损失 最 小 化 问题 的 形式 。 回 想 之 前 定义 的 合 页 损失 : 
CP" (Cw .b),(x,y)) = max{0,1— y((w,x) +4)} 
E(w, DURVWABS, S 上 平均 的 合 页 损失 记 作 LL8*((w，65))。 现 在 ， 考 虑 一 个 正 
则 损失 最 小 化 问题 : 
min(A || wl? +L (Cw,b))) (15. 5) 


论断 15.5 式 (15.4) 与 式 (15.5) 是 等 价 的 。 


证 明 HERD w, b, KEAS 4) 中 在 & 下 的 最 小 化 。 固 定 某 个 i， 由 于 & 一 定 非 
ffi , 如 果 yw, 5 &; 最 优 赋值 为 0， 否则 ， 最 优 赋值 为 1l—y;(w, x0 D) . 
换言之 ， 对 于 所 有 i，& 二 le((w，6b)，(x;，y;))， 故 论断 成 立 。 m 
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因此 ， 我 们 看 到 软 SVM 本 质 上 是 之 前 章节 学 习 过 的 正则 损失 最 小 化 。 一 个 软 SVM 
算法 ， 即 式 (15. 5) 的 解 ， 倾 向 于 选择 范 数 低 的 分 类 器 。 式 (15. 5) 试 图 最 小 化 的 目标 函数 不 
仅 对 训练 误差 有 惩罚 ， 还 对 大 的 范 数 有 惩 昼 。 
同样 地 ， 考 虑 软 SVM 学 习 一 个 齐 次 半空 间 往往 更 加 方便 ， 即 偏差 项 上 为 0， 这 就 是 
下 述 优化 问题 : 
min(A || w ||? + LB Cw)) (15. 6) 
其 中 


LE w) = 1 >} max{0,1 — yW X) 
i=] 


15.2.1 软 SVM 的 样本 复杂 度 


我 们 现在 分 析 对 于 齐 次 半空 间 的 软 SVM( 即 式 (15. 6) 的 输出 ) 的 样本 复杂 度 。 在 推论 
13.8 中 ， 我 们 得 到 了 在 假定 损失 函数 凸 利 普 希 区 的 情况 下 正则 损失 最 小 化 框架 的 泛 化 界 。 
我 们 已 经 说 明 合 页 损失 是 是 的 ， 所 以 现在 只 剩 下 分 析 合 页 损失 的 利 普 希 次 性 。 


论断 15.6 4 flw)=max{0, 1—ylw, x)}, M, f Ælxl-4 4A Zt. 


证 明 很 容易 验证 f Ew 上 的 任意 次 梯度 都 是 ax MBX, HPlal<l. vA 
引 理 14.7， 论 断 得 证 。 = 

因此 ， 由 推论 13. 8 可 得 : 

推论 15.7 SDAAXX{+1} LHD, RPXL=(x: xl <o}. FRADMAF 
S~D” Lik 4f#h SVM 算法 ( 式 15.6)， 令 A(S) 是 软 SVM 的 解 。 那 么 ， 对 于 每 个 妈 ， 


i i 2 2 P 
E [LE CAC(S))] S Le" @) Alal +S 
S Am 
更 进一步 ， 由 于 合 页 损失 是 0 一 1 损失 的 上 界 ， 故 而 
2 
E [LE ASD] < LB (u) 十 ilzlz + 
ae Am 


2 
ZE, tt BDO, RAMA oe, 那么 


2 p2 
E [L5*(A(S))]< E [L*(A(S))] << min Li (w) +, /SeB 
S~D”" S~D” w: || wl] <B m 


因此 ， 我 们 可 以 看 到 可 以 通过 半空 间 参 数 的 范 数 的 函数 来 控制 学 习 一 个 半空 间 所 需 的 
样本 复杂 度 ， 而 与 定义 半空 间 的 欧 几 里 得 维度 无 关 。 这 对 于 高 维特 征 空间 的 学 习 尤 其 显 
着 ， 这 一 点 我 们 将 在 之 后 的 章节 讨论 。 

评注 + 包含 范 数 约束 的 向 量 这 个 条 件 源 于 损失 函数 是 利 普 希 茨 的 要 求 。 这 不 仅仅 是 
一 个 技术 性 要 求 。 如 我 们 之 前 所 讨论 ， 如 果 不 对 样本 的 尺度 做 限制 ， 用 大 的 间隔 可 分 将 没 
有 任何 意义 。 事 实 上 ， 如 果 对 尺度 不 做 限制 ， 我 们 总 是 可 以 通过 对 所 有 样本 乘 以 一 个 尺度 
因子 使 得 间 隅 变 得 无 限 大 。 


15.2.2 间隔 、 基 于 范 数 的 界 与 维度 


我 们 针对 硬 SVM 与 软 SVM 提出 的 界 不 依赖 于 实例 空间 的 维度 。 事 实 上 ， 这 些 界 依 
赖 于 样本 的 范 数 p， 半 空间 的 范 数 B( 或 者 是 间隔 的 参数 >) ， 以 及 在 不 可 分 的 情况 下 ， 所 有 
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范 数 小 于 等 于 B 的 半空 间 的 最 小 合 页 损失 。 另 一 方面 ， 齐 次 半空 间 的 VC 维 是 4， 这 意味 
着 ERM 假设 的 误差 随 Vad/m 减 小 。 我 们 现在 给 出 一 个 例子 ，p B* 之 4， 由 此 来 说 明 由 
推论 15.7 给 出 的 界 要 比 VC 界 好 得 多 。 

考虑 一 个 根据 主题 学 习 短 文本 的 分 类 问题 ， 即 ， 判 断 某 个 文本 是 否 是 关于 体育 的 。 我 们 
首先 需要 将 文本 表示 为 向 量 。 一 个 简单 而 有 效 的 方式 就 是 采用 文字 包 (bag-of-words) 的 表示 ， 
即 ， 我 们 定义 一 个 文字 的 字典 ， 并 令 其 维度 dd 为 字典 中 文字 的 个 数 。 给 定 一 个 文本 ， 我 们 将 
其 表示 为 一 个 向 量 xE{0，1)， 其 中 当 字 典 中 的 第 i 个 文字 在 文本 中 出 现时 xz; 二 1， 否 则 六 一 
0。 因 此 ， 对 于 这 个 问题 ， 的 值 就 是 在 给 定 的 文本 中 有 区 别 的 文字 的 最 大 个 数 。 

对 于 这 个 问题 ， 待 求 的 半空 间 给 文字 分 配 了 权重 。 我 们 假定 在 给 一 些 文字 分 配 正 或 者 
负 的 权重 后 能 够 以 足够 精确 度 来 判定 文本 是 否 是 关于 体育 的 。 因 此 ， 对 于 这 个 问题 ，B 
可 以 设 定 为 小 于 100。 总 之 ， 认 为 Bp 的 值 小 于 10 000 是 合理 的 。 

ATH, 一般 的 字典 包含 的 文字 明显 是 大 于 10 000 AY. PIG, Ria PBA 
100 000 个 有 区 别 的 文字 。 因 此 我 们 可 以 看 出 来 这 个 问题 中 ， 采 用 SVM 规则 学 习 一 个 半空 
间 和 采用 一 个 合适 的 ERM 规则 学 习 一 个 半空 间 的 区 别 不 是 一 个 量 级 的 。 

当然 ， 构 造 一 个 问题 使 得 SVM 界 比 VC 界 差 得 多 也 是 可 能 的 。 当 使 用 SVM if, R 
们 其 实 引 入 了 另外 一 种 形式 的 归纳 偏 置 一 一 我 们 选择 了 大 间隔 的 半空 间 。 这 个 归纳 偏 置 可 
能 明显 降低 估计 误差 ， 也 可 能 增 大 通 近 误差 。 


15. 2.3 ”斜坡 损失 - 

推论 15. 7 中 给 出 的 基于 间隔 的 界 依赖 于 我 们 最 小 化 的 是 合 页 损失 。 如 之 前 的 小 节 中 
GB. W/o B /m 有 可 能 比 VC 界 相 关 的 项 Vd/m 要 小 得 多 。 然 而 ， 推 论 15.7 的 逼近 
误差 与 合 页 损失 有 关 ， 而 VC 界 与 0 一 1 损失 有 关 。 由 于 合 页 损失 是 0 一 1 损失 的 上 界 ， 因 
此 由 0 一 1 损失 得 到 的 通 近 误差 永 远 不 会 超过 由 合 页 损失 得 到 的 逼 近 误差 。 

对 于 0 一 1 损失 ,不 可 能 得 到 包含 估计 误差 项 Vp B*/m 的 界 。 这 是 由 于 0 一 1 损失 是 尺 
度 不 敏感 的 ， 导 致 了 当 我 们 度量 0 一 1 损失 下 的 误差 时 ， 考 虑 w 的 范 数 或 者 相应 的 间隔 是 
没有 意义 的 。 然 而 ， 还 是 有 可 能 定义 一 种 损失 函数 ， 在 这 种 损失 也 数 下 ， 首 先 它 是 尺度 敏 
感 的 ， 因 而 可 以 在 估计 误差 中 包含 项 Vp B*/m。 与 此 同时 ， 它 还 与 0 一 1 损失 更 为 接近 。 
其 中 一 种 满足 上 述 条 件 的 就 是 斜坡 损失 (ramp loss)， 定 义 如 下 : 

E(w, (x,y))= min{1. Oe (w,(x,y))} 
= min{1,max{0,1— ylw,x)}} 
斜坡 损失 如 0 一 1 损失 一 样 惩罚 错误 ， 并 且 对 间隔 分 开 的 样本 不 做 惩罚 。 斜 坡 损 失 与 0 一 1 
损失 的 区 别 仅仅 在 于 那些 被 正确 分 类 但 是 没有 一 个 明显 间隔 的 样本 上 。 在 本 书 的 进 阶 部 分 
给 出 了 和 斜坡 损失 的 泛 化 界 ( 见 26. 3 49). 


Fry TET TT 











ohi 


T ace TT 


EE 
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SVM 采用 合 页 损失 而 不 是 斜坡 损失 的 原因 在 于 合 页 损失 是 凸 的 ， 因 此 从 计算 角度 而 
言 最 小 化 合 页 损失 要 更 为 易 行 。 与 此 同时 ， 最 小 化 斜坡 损失 的 问题 是 计算 困难 的 。 


15.3 ”最 优化 条 件 与 “支持 向 量 ”* 

“ 文 持 向 量 机 ”的 名 字 来 源 于 人 硬 SVM 的 求解 过 程 ， 即 由 那些 与 分 类 超 平面 距离 确实 是 
1/ wo 的 样本 来 “支持 ”( 即 线性 张 成 )。 因 此 这 些 向 量 被 称 作 支持 向 量 。 为 了 看 清 这 一 
点 ， 我 们 采用 Fritz John 最 优化 条 件 。 

定理 15.8 Aw 如 式 (15.3) 中 定义 ，I=={i: |( wo, x)| =1}. MÉZ A žan ，…:， 


am 使 得 
wo >a: X; 
ie! 
样本 {xi: i1ET} 称 为 支持 向 量 。 
将 下 述 引 理 与 式 (15. 3) 联 立 可 证 得 上 述 定 理 。 


引 理 15.9(Fritz John) 假定 
w* Eargminf (w) st Vie [m],g;(w) <0 


KEP Ss Bis ts Gm 可 导 。 那 么 ， 存 在 aER" VE (w*) + a; Vg: (w) 一 0 ， 其 中 
iEI 


I={i: g;Cw* )=0}, 


15.4 对偶 * 


SVM 最 早 提 出 来 的 时 候 ， 许 多 性 质 是 通过 考虑 式 (15. 3) 的 对 偶 形 式 获 得 的 。 我 们 之 
前 对 SVM 的 描述 是 没有 依赖 对 偶 的 。 为 了 内 容 的 完整 性 ， 我 们 下 面 将 介绍 如 何 得 到 
式 (15. 3) 的 对 偶 形 式 。 

自 先 我 们 对 式 (15. 3) 重 写 出 一 个 等 价 问题 形式 如 下 。 考 虑 如 下 函数 ; 

(° 者 Viy: wax > 1 


g(w) = max a;(1— y;{w,x;)) = 
2) co 其 他 


aER :a>0 i=] 


因此 我 们 可 以 将 式 (15. 3) 重 写 为 


min(| wl? + g(w)) (15. 7) 
重新 排列 上 式 中 项 的 顺序 ， 我 们 可 以 得 到 式 (15. 3) 重 写 为 如 下 问题 ， 
min max (+l wll? + Dell—y(w,x))) (15. 8) 
w aER :a>0 i=] 


现在 我 们 将 等 式 中 求 最 大 与 求 最 小 的 顺序 交换 ， 这 只 会 使 目标 函数 值 减 小 ( 见 练 
4 15.4)5 ZRA 


1 a m 
D i L= i sA; 
min max (| w| + oa yi(w x;)) ) 


j, m 
= m min(+ || wl? T Da — 9 wx;)) ) 


上 述 不 等 式 称 作 弱 对 偶 性 (weak duality)。 已 证 明 对 于 我 们 这 种 情况 ， 强 对 偶 性 也 是 
成 立 的 ， 即 上 述 不 等 式 可 以 取 等 号 。 因 此 ， 对 偶 问 题 为 


| T E m E 
„max min(> lwl + dai yi(w,xi)) ) (15; 93 
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下 面 我 们 对 上 述 问题 进行 简化 ， 固 定 a 之 后 ， 与 w 相关 的 优化 问题 就 是 无 约束 的 并 
且 目 标 函 数 是 可 导 的 ， 因 此 ， 取 最 优 时 ， 梯 度 值 为 0: 
| rz Sagi = 0>w = Dayi x: 


上 起 告诉 我 们 最 优 解 由 样本 线性 张 成 ， 并 且 启 示 我 们 之 后 可 以 用 核 来 得 到 SVM。 将 
上 式 代入 到 式 (15.9) 中 可 以 将 对 偶 问题 重 写 为 


max (=| Sal al + Dra y Dasa; 21%: ) (15. 10) 
aER :a>0 i=] i=] j 
重 拍 上 式 中 项 的 顺序 可 得 对 偶 问 题 为 
max (Sa->> > aajyiy (x +: ) CS VU) 
aER :a>0 \ j=] i=]. j= 


注意 到 上 述 对 偶 问 题 只 与 样本 间 的 内 积 有 关 而 不 需要 直接 访问 单个 特定 样本 。 这 个 性 
质 在 用 核 来 实现 SVM 时 是 非常 重要 的 ， 我 们 在 下 一 章 中 会 详细 讨论 。 


15.5 用 随机 梯度 下 降 法 实现 软 SVM 
本 节 中 我 们 要 介绍 一 种 非常 简单 的 算法 求解 软 SVM 优化 问题 ， 即 
min(4 | wl? ++ >) max{0,1— y(w,x))) (15. 12) 


我 们 根据 随机 梯度 下 降 法 的 框架 来 解 该 正则 损失 最 小 化 问题 ， 如 14. 5. 3 小 市 中 所 述 。 
在 式 (14. 15) 中 ， 我 们 可 以 将 随机 梯度 下 降 法 的 更 新 规则 重 写 如 下 : 


t 


l 
gerd —— T 2, v; 


其 中 w 是 损失 函数 于 第 j 步 迭代 随机 选择 样本 后 在 w 中 的 次 梯度 。 对 于 合 页 损失 ， 给 定 一 
个 样本 (x，y)， A ylw”, x21, 我 们 可 以 选 v; 为 0， 否 则 ， ev; = — yx (WARY 
14.2)。 记 99 二 一 局 v;， 可 得 如 下 程序 ， 


解 软 SVM 的 随机 梯度 下 降 法 
求解 : 式 (15. 12) 
BA: T 
初始 化 : D =0 
for i=l; =; T 


l 
A wt =—9® 
令 128 


随机 从 [mj 中 均匀 地 选择 1 
-E AGAC E Kl) 

令 gt? =g+y. x, 

否则 ger) —@” 


a 
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15.6 小 结 

SVM 是 在 给 定 先 验 知识 形式 ( 即 选 择 大 的 间隔 ) 下 学 习 半 空间 的 一 个 算法 。 便 SVM 寻 
找 用 大 间隔 完美 分 开 样 本 的 半空 间 ， 而 软 SVM 不 对 数据 可 分 性 作假 设 ， 而 是 允许 限制 条 
件 有 一 定 程 度 放松 。 两 种 形式 的 SVM 的 样本 复杂 度 与 直接 学 习 半 空间 的 样本 复杂 度 是 不 
同 的 ， 这 是 由 于 其 不 依赖 域 的 维度 而 是 依赖 参数 (如 x 的 最 大 范 数 或 者 w 等 )。 

在 下 一 章 将 会 看 到 不 依赖 于 维度 的 样本 复杂 度 是 非常 重要 的 ， 我们 将 会 讨论 把 给 定 的 
域 柑 入 到 高 维特 征 空间 作为 扩充 假设 类 的 方式 。 这 样 的 扩充 面临 着 计算 复杂 度 和 样本 复杂 
度 的 问题 。 后 者 可 用 SVM 来 解决 ， 前 者 可 以 用 带 核 的 SVM 来 解决 ， 这 一 点 我 们 将 在 下 
一 章 话 述 。 

15.7 文献 评 ; 


Cortes 和 Vapnik(1992), Boser, Guyor 和 Vapnik(1992) 介 绍 过 SVM。 在 关于 SVM 


的 理论 和 应 用 方面 有 很 多 好 书 。 例 如，Vapnik (1995), Cristianini & Shawe-Taylor 
(2000), Schölkopf &. Smola(2002), Hsu 等 (2003)，Steinwart 和 Christmann(2008), 3% 


用 随机 梯度 下 降 来 解 软 SVM 由 Shalev-Shwartz 等 在 2007 年 提出 。 


15.8 练习 
15.1 请 说 明 硬 SVM 规则 ， 即 


argmax ， min | (w, xX) Hb) st. Viry: lw.,x;) +6) >0 
SOF Ps: 
argmax miny; ((w,x;) +b) CIS 133 
提示 ; ÆLG={lw, b): Vis ylw, x;)+b)>0}, 
1) 说 明 


argmax | miny; ((w.x) +b) EG 


sb): || w |] = 
2) WHH, V Cw, DEG: 
miny; (at = min | (w,x;) +6 


15. 2 间隔 与 感知 器 考虑 一 一 个 由 间隔 y 线 性 可 分 的 训练 集 ， 因 此 所 有 的 样本 都 在 一 个 半 
径 为 po 的 球 中 。 请 证 明 在 9. 1. 2 小 节 中 给 出 的 批量 感知 器 算法 在 该 训练 集 上 运行 将 
seth WY ae AGE RAGE o/y 。 
15.3 硬 和 软 SVM 证 明 或 推翻 如 下 论断 ; 
存在 4 这 0 使 得 对 于 每 个 由 om > 1 个 样本 组 成 的 样本 集 SCS 可 由 齐 次 半空 间 分 开 )， 
便 SVM 和 软 SYM( 参 数 为 4) 学习 规 则 给 出 的 权重 向 量 相 同 。 
15.4 弱 对 偶 性 ”请 证 明 对 于 任何 关于 两 个 向 量 xe XY, ye VAN f, FRET: 


( = mé 
min maxf x,y) = = max min f(x, sy) 


第 16 章 | 


Understanding Machine Learning; From Theory to Algorithms 


核 & 





前 一 章 我 们 叙述 了 SVM 模型 用 于 学 习 高 维特 征 空 间 中 的 半空 间 。 通 过 首先 将 数据 映 
射 到 高 维特 征 空 间 ， 然 后 在 此 空间 中 学 习 线 性 预测 器 ， 使 得 半空 间 的 表达 能 力 更 加 丰富 。 
这 与 在 基 空 间 中 学 习 半 空间 的 线性 组 合 的 AdaBoost 算法 类 似 。 尽 管 这 种 方式 使 得 半空 间 
预测 器 的 表达 能 力 得 到 了 极 大 的 提升 ， 它 同时 也 带 来 了 样本 复杂 度 及 计算 复杂 度 的 挑战 。 
前 一 章 我 们 通过 间隔 (margin) 的 概念 解决 了 样本 复杂 度 的 问题 。 本 章 中 ， 我 们 将 通过 核 方 
法 解决 计算 复杂 度 带 来 的 挑战 。 

本 章 我 们 以 数据 到 高 维特 征 空间 映射 的 思想 为 开端 ， 进 而 介绍 核 的 思想 。 核 是 样本 相 
似 性 的 一 种 度量 。 核 相似 性 的 特点 在 于 它 可 以 看 作 样 本 映射 到 的 虚拟 空 s 间 希 尔 伯 特 空间 
(或 者 高 维 欧 式 空间 ) 的 内 积 。 我 们 会 介绍 使 得 学 习 算 法 计算 高 效 执 行 ， 而 不 必 直 接 处 理 样 
本 高 维 空间 表示 的 “ 核 技巧 ”。 基于 核 的 学 习 算 法 ,尤其 是 核 支 持 向 量 机 (kernel-SVM)， 
是 非常 有 效 且 流行 的 机 融 学 习 工 具 。 它 们 的 成 功 归 因 于 灵活 易 得 的 领域 先 验 知 识 ， 以 及 成 
型 的 高 效 快速 执行 算法 。 


16.1 特征 空间 映射 

半空 间 的 表达 能 力 非 常 受 限 。 例 如 ， 以 下 训练 集 对 于 半空 间 是 不 可 分 的 。 

假设 定义 域 为 实 线 ; 考虑 定义 点 1{ 10 —9, —Sy cos Qa Ly "es 9y 10}, H | z| > 
2 的 工 的 标签 为 十 1， 其 余 的 为 一 1。 

为 了 使 半空 间 类 描述 能 力 更 强 ， 我 们 首先 将 原始 实例 空间 映射 到 另 一 空间 (可 能 是 一 
Her x 间 ) 并 且 在 此 空间 中 学 习 一 个 半空 间 。 例 如 ， 考 虑 前 面 提 到 的 样本 。 我 们 首先 定 

一 个 映射 p: RR, ee TE S 其 中 

Wx) 一 (Zyz) 
我 们 用 特征 空间 来 表示 y 的 值 域 。 应 用 y 之 后 ， 数 据 就 可 以 很 容易 地 利用 半空 间 h(x)= 
sign(《w，y(xX)) 一 5) 来 解释 ， 其 中 w=(0, 1), b=5, 

基本 泡 式 描述 如 下 : 

1. 给 定 定 义 域 七 及 学 习 任 务 ， 选 择 映射 p: 一 大， 特征 空间 大 通常 是 关于 交 的 n 维 实 
数 空间 RR (但 是 ， 映 射 的 值 域 可 以 是 任意 希 尔 伯 特 空间 ， 包 括 无 限 空间 ， 后面 我 们 将 会 
说 明 ) 。 

ee 给 定 已 标记 的 样本 集 ， S= (Wi Ride ey (Eao Vado 建立 映射 序 FF S= (h(x), 
Vids my LOCK hy Verde 

3. 在 S 上 训练 线性 预测 器 有 h。 

4. 预测 测试 样本 x 的 标签 h(y(x))。 

需要 指出 的 是 ， 对 于 任意 七 多 7 上 的 概率 分 布 了 ， 通 过 设 定 对 任意 子 集 ASCF XY， 
D(A) 二 D(y (4A))， 我 们 可 以 定义 它 在 下 XJI7 上 的 映射 概率 分 布 Di 。S 接 下 来 就 可 以 得 到 


O ”这 个 定义 针对 任意 的 A， 使 得 w-1(A) 对 于 D 是 可 测 的 。 
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特征 空间 上 的 每 一 个 预测 器 有，Lzs (1) 二 Lp lh e p), HF h e 表示 y 上 hh 的 集合 。 
这 个 范式 的 有 效 性 取决 于 对 于 给 定 任务 选取 好 的 映射 p: 也 就 是 ，y 使 得 在 特征 空间 
中 (近乎 ) 线 性 可 分 的 数据 分 布 的 映射 对 于 给 定 任 务 算法 是 一 个 好 的 学 习 带 的 映射 。 这 样 
的 一 个 映射 的 选取 依赖 于 给 定 任务 的 先 验 。 然 而 ， 通常 应 用 一 些 通用 的 可 提高 半空 间 类 表 
达能 力 的 映射 。 值 得 一 提 的 一 个 例子 就 是 多 项 式 映射 ， 它 是 前 面 我 们 看 到 的 y 的 推广 。 
我 们 知道 ， 对 于 实例 x， 标 准 的 半空 间 分 类 器 的 预测 值 基于 线性 映射 YF>《z，x)。 我 
们 可 以 将 线性 映射 泛 化 为 多 项 式 映射 xr> p(x)， 其 中 p 是 & 阶 多 元 多 项 式 。 简 单 起 见 ， 考 


虑 x 是 一 维 的 情况 。 在 此 情况 下 ，p(z) 二 六 wx， 其 中 wR 是 我 们 要 学 习 的 多 项 式 
系数 向 量 。 将 p(x) 重 新 记 为 pla) =(w, gz)), Hy: PR ER eh, az, 2’, 
如 ，…,X*)。 也 就 是 说 ， 在 及 上 学 习 一 个 k 阶 多 项 式 可 以 通过 在 & 十 1 维特 征 空间 中 学 习 
一 个 线性 映射 实现 。 

更 加 一 般 地 ， 从 R' 到 民 的 一 个 k 阶 多 元 多 项 式 可 记 作 


a= >, w [| wi (16. 1) 


JEn] :r<k i=] 


跟前 面 一 样 ， 我 们 可 以 将 p(x) 重 新 记 为 p(x) 二 《4w，y(x))， 而 现在 J: RR (EST 
IER J Eln], rk, 5 关联 的 J(x) 的 坐标 是 单项 式 Ia. 


当然 ， 基 于 多 项 式 的 分 类 器 假设 类 比 半空 间 丰 富 。 本 音 的 开始 我 们 已 经 看 过 这 样 一 
例子 ， 训 练 集 在 原始 空间 (二 民 ) 由 半空 间 是 不 可 分 的 ， 但 经 过 映射 ater, POZA P 
是 完全 可 分 的 。 因 此 ， 尽 管 分 类 器 在 特征 空间 里 总 是 线性 的 ， 但 在 样本 采样 的 原始 空间 却 
有 极 强 的 非 线性 。 

一 般 情 况 下 ， 我 们 可 以 选取 任意 的 特征 映射 y 使 得 原始 样本 映射 到 某 些 希 尔 伯 特 空 
间 。 吕 对 任意 有 限 的 4d， 欧式 空间 民 是 希 尔 伯 特 空间 。 但 也 有 无 穷 维 希 尔 伯 特 空间 (本 章 后 
面 我 们 会 看 到 ) 。 

这 里 我 们 要 讨论 的 主旨 就 是 通过 首先 应 用 非 线 性 映射 yy， 将 样本 空间 映射 到 特征 空 
间 ， 然 后 在 这 个 特征 空间 里 学 习 一 个 半空 间 ， 使 得 半空 间 的 表达 能 力 得 到 提升 。 然 而 ， 如 
果 映 射 y 的 值 域 为 高 维 空间 ， 我 们 就 会 遇 到 两 个 问题 。 首 先 ，n 维 空间 了 "里 半空 间 的 VC 
维 为 n 十 1， 因 此 ， 如 果 映 射 yy 的 值 域 非常 大 ， 我 们 就 需要 非常 多 的 样本 来 学 习 y 值 域 里 的 
半空 间 。 其 次 ， 从 计算 量 的 角度 看 ， 高 维 空 间 里 进行 运算 可 能 代价 非常 高 。 事 实 上 ， 向 量 
w 在 特征 空间 里 可 能 是 不 可 表示 的 。 第 一 个 问题 可 以 通过 应 用 最 大 间隔 (或 者 小 范 数 预测 
售 ) 来 解决 ， 我们 在 前 一 章 SVM 算法 的 内 容 里 面 已 经 讨论 过 。 接 下 来 ,我们 就 考虑 计算 复 
杂 度 的 问题 。 


16.2 核 技 巧 
我 们 已 经 看 到 将 输入 空间 映射 到 高 维特 征 空间 可 使 得 半空 间 学 习 的 表达 能 力 更 强 。 然 


O ”布尔 伯 特 空间 是 一 个 具有 内 积 的 向 量 空间 ， 它 是 一 个 完备 空间 。 如 果 空 间 里 所 有 的 柯 西 序列 收敛 ， 那 么 称 
这 个 空间 是 完备 的 。 在 我 们 的 例子 中 ， 范 数 上 ww 由 内 积 w, w oe 我 们 之 所 以 要 求 映 射 y AE E 
希 尔 伯 特 空间 是 因为 希 尔 伯 特 空间 的 映射 已 有 完美 的 定义 。 更 特殊 一 点 ， 如 果 M 是 一 个 线性 希 尔 伯 特 空 
间 ， 那 么 希 尔 伯 特 空间 里 的 任意 一 个 x 都 可 记 作 x 二 wu 十 v， 其 中 kwEM， ENFERN awe Md (uy w)= 
0。 下 一 节 证 明 表 示 定 理 的 时 候 ， 我 们 会 用 到 这 个 事实 。 
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而 ， 学 习 的 计算 复杂 度 的 问题 可 能 还 是 一 个 严重 障碍 一 一 在 非常 高 维 数 的 空间 里 学 习 线 性 
分 类 器 可 能 计算 量 非常 大 。 这 个 问题 通用 的 解决 方案 就 是 基于 核 的 学 习 算 法 。 这 里 “ 核 ” 
的 概念 用 于 描述 特征 空间 的 内 积 。 给 定 由 定义 域 衬 到 希 尔 伯 特 空间 的 特征 映射 Jy， 定义 核 
PAH K(x, x)=), pax), REETU K 看 作 衡 量 样 本 相似 性 的 特殊 形式 ， 也 
可 以 将 yy 看 作 从 定义 域 t 到 由 内 积 实现 相似 性 的 空间 的 映射 。 实 际 上 ， 许 多 半空 间 学 习 算 
法 可 以 仅仅 通过 定义 域 里 点 对 的 核 函 数值 来 完成 。 这 些 算法 最 主要 的 优势 在 于 它们 可 以 在 
高 维特 征 空 间 中 实现 线性 分 类 器 而 不 必 知 道 样本 点 在 特征 空间 中 的 具体 形式 或 者 映射 的 表 
达 式 。 本 节 接 下 来 的 部 分 致力 于 构建 这 样 的 算法 。 

在 前 一 章 我 们 看 到 尽管 特征 空间 维 数 非常 高 ， 正 则 化 w 的 范 数 可 以 降低 样本 复杂 度 。 
更 有 趣 的 是 ， 正 如 后 面 我 们 会 说 明 的 ， 正 则 化 w 的 范 数 对 解决 计算 复杂 度 问 题 也 是 非常 
有 帮助 的 。 首 先 ， 前 一 章 我 们 得 出 ， 所 有 版 本 的 SVM 优化 都 解决 以 下 这 样 一 个 通用 的 
问题 : 

min’ fU ws gx)) sew Glen) + RC wl)) (16. 2) 
Hp, f:R’-R HIERN RAR, R:R: RE PIA RRA. PON, MPF RAs la] xe SVM 
(等 式 (15. 6)) 可 以 通过 使 等 式 (16.2) 的 Ra) =Aa’ A Fai san) = 一 > max{0,1 = 


yai) 而 得 。 同 样 ， 非 齐 次 半空 间 ( 等 式 (15. 2)) 可 通过 使 等 式 (16.2) 的 Ra) =a HI FEA 
的 1 如 果 存 在 b 使 得 Ņi (a; +1 那么 fla 9 ”3 a ) 等 于 QO, RZ fla, so PMs An) =O, 
下 面 的 定理 证 明了 在 展开 空间 4WwGxi )， ori DC Xm) 中 存在 等 式 (16. 2) 的 最 优 解 。 


定理 16. 1( 表 示 定理 ) 假定 是 由 XX 到 希 尔 伯 特 空间 的 映射 ， 那么 ， 存 在 向 量 g€ RR” 
使 多 如 一 » apa) 是 等 式 (16. 2) 的 最 优 解 。 
WEAR iw 是 等 式 (16.2) 的 最 优 解 。 由 于 w* 是 希 尔 伯 特 空间 的 元 素 ， 我 们 可 以 将 其 
重 写 为 
ow? = Sates ee 


i=l 
其 中 对 于 任意 的 i 有 Cu，y(xi)) 二 0。 设 w 二 w* 一 wu。 显 然 ，|w* 上 = 二 上 wl? 十 |ul:， 因 
此 , (wlw. AFR EARN, 我 们 有 RCw|) 二 R(w* |)。 另 外 ， 对 于 任意 的 
i 有 
Vik ws plx)? = yi Cw" UU DK) = ylw ,px;)) 
因此 ， 
S Yr LW pA DS Yn WW Km) 一) 

我 们 已 经 说 明 目 标 函数 式 (16. DE w 处 的 值 不 大 于 其 在 w* 处 的 值 ， 因 此 ，w 也 是 一 个 最 


优 解 。 由 于 zw = 3 apx) ， 我 们 就 证 明了 以 上 定理 。 a 
在 表示 年 理 的 基础 之 上 ， 我 们 就 可 以 按照 如 下 以 @ 的 系数 而 非 z 最 优化 等 式 (16. 2). 
iL w = kP apx) ， 对 于 任意 的 i 我 们 有 


j= 


Cw pei)? = (>) apapa) = >) aj (Wx) Ox) 
j j=l 


同样 ， 
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lwl? = (之 apl; )， 2 wb) = È aia; (Ox) pCx;)) 
it K(x, x yt px EERS g 应 用 的 核 函 数 。 我 们 可 以 解 下 面 这 个 等 价 
问题 而 不 是 等 式 (16. 2) 


minf( >) a;K (x;+x1)>° a? ajK (x; sXm)) +R( 
ac R” j=1 j= 


要 解 等 式 (16. 3) 的 优化 问题 ， 我 们 不 必用 到 特征 空间 里 的 元 素 ， 唯一 需要 知道 的 就 是 怎样 
计算 特征 空间 的 内 积 ， 或 者 说 ,计算 核 函数 。 事 实 上 ， 要 解 等 式 (16. 3)， 我 们 只 需 知 道 一 
个 mxXm 的 和 矩阵 G 的 值 ， 使 得 G;,; = K(x; , Xj) 9 G 通 第 称 作 Gram 和 矩阵。 

特殊 地 ， 具 体 到 前 面 等 式 (15. 6) 给 出 的 软 SVM 问题 ， 可 以 将 问题 重新 记 为 


min (A e ++. 二 > maxi 10,1 = (Gadi) (16. 4) 
aER” 


HP (Ga); E I a E AN 个 元 素 。 注 意 到 等 式 (16. 4) 可 以 写成 二 
次 规划 的 形式 ， 因 此 可 以 高 效 快速 地 解决 。 下 一 节 我 们 会 介绍 一 个 用 核 解决 软 SVM 的 更 


加 简单 的 算法 。 
只 要 学 到 系数 ag， 我 们 就 可 以 对 一 个 新 样本 进行 预测 


Cwpl) = >) aj (px) Dx)) = >) aK x,x) 


2 aajK(X;5%;)) (16.3) 





利用 核 而 不 是 直接 在 特征 空间 里 优化 w 的 优势 就 在 于 某 些 情况 下 ， 特 征 空间 的 维 数 是 非 
常 高 的 ， 而 利用 核 函 数 则 非常 简单 。 下 面 给 出 了 几 个 例子 。 


GED (多 项 式 核 ) 阶 多 项 式 核定 义 为 
K(x,sx') = (1+ (x,x ))* 
现在 我 们 说 明 这 确实 是 一 个 核 郴 数 。 也 就 是 说 ， 我 们 要 说 明 ， 存 在 一 个 由 原始 空间 到 高 维 
空间 的 映射 y 使 得 K(x，x') 二 (yy(x)，y(x'))。 简 单 起 见 ， 设 zo 二 x'o= 二 1， 那 么 我 们 有 
K(xsx)= (1 (xsx ))* = (14+ lxx) (1+ (x,x )) 
= CP ee) sess (>) x; 2}) 


k k k 
= & Macis 2» Hals 
1 i=] 


JEt0L nme m] FEW 
如 果 我 们 定义 gy: RR 使 得 对 于 JE{0，1，…，n)*， P(x) ACR A IT x, ， 我 
们 就 可 得 到 | 7 
K(x,x') = (p(x) ,p(x')) 
由 于 yy 包含 所 有 阶 单项 式 ， 原 始 空 间 里 的 & 阶 多 项 式 就 对 应 于 映射 y 空间 里 的 半空 间 。 


因此 ， 利 用 阶 多 项 式 核 学 习 半 空间 就 使 得 我 们 可 以 在 原 空间 里 学 习 一 个 有 阶 多 项 式 预 
UW AF 4 


这 里 我 们 需要 注意 的 是 应 用 核 函 数 K 的 复杂 度 为 O(n)， 而 特征 空间 的 维 数 大 约 为 nt， 
(高 斯 核 ) HEZK R, 考虑 这 样 的 一 个 映射 y: 对 于 任意 非 负 整数 no, 
ATED W(x), = =z", 那么 ， 
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(fx) px')) = oN ed 全 wr) 


oO F F 
meal fae *) ell 
= eC mig = e F4 
nl 


这 里 特征 空间 是 无 穷 3 维 ， 但 应 用 核 是 非常 简单 地 。 更 一 般 地 ， 给 定 标量 c 盖 0， 高 斯 核定 
义 为 
K(x, x!) = 

直观 地 ， 如 果 两 个 样本 x, x' 彼 此 距离 远 ( 原 始 空间 )， 那 么 高 斯 核 使 得 特征 空间 里 二 
者 的 内 积 接近 于 0， 相 反 如 果 原 空间 距离 近 ， 内 积 则 接近 于 1。c 是 用 来 决定 怎样 意味 看 
“ 近 ” 的 参数 。 很 容易 证 明 K 是 某 一 空间 的 内 积 ， 在 这 个 空间 里 ， 对 于 任意 的 n 及 任意 的 
k 阶 单项 式 都 存在 元 素 y(x) er = ll 2 Tay 。 因 此 ， 通 过 利用 高 斯 核 ， 我 们 可 以 学 
得 在 原 空间 的 任意 多 项 式 了 预测 冀 。 4 


我 们 知道 所 有 多 项 式 预测 器 类 的 VC 维 是 有 限 的 ( 见 练习 16. 12) 。 由 于 学 习 高 斯 核 所 
需 的 样本 复杂 度 依赖 于 特征 空间 的 间隔 ， 如 果 够 垃 运 的 话 间 隔 会 比较 大 ,但 通常 margin 
会 比较 小 ， 然 而 这 二 者 并 不 矛盾 。 

高 斯 核 也 称 RBF 核 ， 即 “Radial Basis Functions”, 


16.2.1 核 作为 表达 先 验 的 一 种 形式 


正如 前 面 我 们 所 讨论 的 ， 特 征 上 映射 多 可 以 看 作 线 性 分 类 需 到 表达 能 力 更 加 丰富 的 类 
(对 应 于 特征 空间 里 的 线性 分 类 需 ) 的 扩展 。 然 而 ， 到 目前 本 书 讨论 的 内 容 为止 ， 给 定 任务 
的 任意 假设 类 的 有 效 性 取决 于 任务 的 本 身 特性 。 因 此 我 们 也 可 以 将 映射 y 看 作对 当前 问题 
表达 利用 先 验 知识 的 一 种 方式 。 例 如 ， 如 果 我 们 相信 正 样 本 可 以 由 一 些 椭圆 形 区 分 ， 就 可 
以 定义 yy 是 所 有 二 阶 单项 式 或 者 2 阶 多 项 式 核 。 

举 一 个 更 实际 的 例子 ， 考 虑 学 习 找 到 文件 里 的 序列 字符 (“签字 ”) 用 于 指示 其 是 否 含 有 
病毒 。 一 般 地 ， 设 计 为 字母 集 5 里 的 所 有 有 限 字 符 串 组 成 的 集合 ， 并 县 是 所 有 长 度 最 大 
为 d 的 字符 串 的 集合 。 我 们 期 望 学 到 的 假设 为 区 二 {1h,: VEXI}, ERTER rer, 
当 目 仅 当 wv 是 xz 的 子 串 时 ，h,(x) 二 1( 反 之 h,(x) 二 一 1)。 接 下 来 我 们 说 明 ， 如 何 应 用 一 
合适 的 映射， 使 得 这 个 假设 可 以 通过 在 特征 空间 里 学 习 一 个 线性 分 类 器 完成 。 考 虑 到 特征 
Z ERS y, EP ;二 1X4 | ， 因 此 ，y(x) 的 每 个 坐标 与 字符 串 v 对 应 ， 并 且 表 明 wv 是 
否 是 x 的 一 个 子 串 (也 就 是 说 ， 对 于 任意 的 xEX，y(x) 是 {0，1} || 里 的 一 个 向 量 ) 。 需 
要 指出 的 是 ， 特 征 空间 的 维 数 与 & 呈 指 数 关 系 。 不 难看 出 ， 类 的 每 一 个 元 素 都 可 以 通过 
VCz) 上 的 线性 分 类 需 组 合 而 得 ， 此 外 ， 可 以 通过 范 数 为 1 的 半空 间 而 得 ， 这 样 可 使 得 间隔 
为 1( 见 练习 16. 1) 。 进 一 步 说 ， 对 于 任意 的 eer, |o(x)||=OC/d). HHRH, MAB 
AREAS d 相关 的 多 项 式 时 ， 用 SVM 是 可 学 习 的 。 然 而 ， 特 征 空 间 的 维 数 与 d 呈 指 数 关 
系 ， 因 此 直接 在 特征 空间 里 应 用 SVM 是 不 切实 际 的 。 幸 运 的 是 ， 计 算 特 征 空 间 的 内 积 ( 例 
如 核 图 数 ) 是 容易 的 ， 而 不 必 知 道 特征 映射 后 样本 的 具体 形式 。 事 实 上， 开 (z，z) 就 是 
和 z 公共 子 串 的 数目 ， 这 可 以 在 与 d 相关 的 多 项 式 时 间 内 很 容易 地 计算 出 。 

这 个 例子 也 说 明了 特征 映射 是 怎样 使 得 我 们 可 以 在 非 矢 量 域 里 应 用 半空 间 。 
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16.2.2 核 函 数 的 特征 ” 

正如 前 一 节 讨论 的 ， 我 们 可 以 将 核 函 数 看 作 表达 先 验 知识 的 形式 。 考 虑 给 定 的 相似 性 
函数 :XX> 民 ， 它 是 否 是 一 个 合法 的 核 函 数 ? 也 就 是 说 ， 对 于 特征 映射 y 它 是 否 表 不 
J(x) 与 J(x ) 的 内 积 ? 以 下 定理 给 出 了 充分 必要 条 件 。 

定理 16.2 一 个 对 称 的 函数 K: XXX>R 对 应 希 尔 伯 特 空间 的 内 积 ， 当 且 仅 当 它 是 
半 正 定 的 ; 也 ,就 是 说 ， 对 于 所 有 的 2 ， 2240 eas Gram $B ÆG; ; =K (xis xi) 是 一 个 半 正 定 
矩阵 。 

证 明 ”显然 如 果 K 是 希 尔 伯 特 空间 的 内 积 ， 那 么 Gram 和 矩阵 就 是 半 正 定 的 。 反 过 来 ， 
我 们 首先 定义 上 的 函数 空间 Rt 二 {f: XR). WER eee, KO RMB xP 
K(。，x)。 通 过 所 有 具有 K(，，x) 形 式 元 素 的 线性 组 合 ， 我 们 可 以 定义 一 个 癌 量 空间 。 
定义 这 个 向 量 空间 的 内 积 

(Dr mK) 2 BK Cx)? = Dy a: BK (xi »x}) 
由 于 它 是 对 称 的 (K 是 对 称 的 )， 因 此 它 是 一 个 合法 的 内 积 ， 它 是 线性 的 (显然 )， 并 且 半 正 
定 ( 容 易 看 出 K(x, x)>0, MA wzx) 王 0 时 等 于 0)。 显 然 ， 
(h(x) xX) = (Ks,x) Klx) = K(x,x) 
以 上 定理 得 证 。 Â 


16.3 $k SVM 应 用 核 方 法 
接 下 来 我 们 用 核 方法 处 理 软 SVM。 尽 管 我 们 已 经 设计 算法 解决 等 式 (16.4) 的 问题 ， 
但 仍 有 更 简单 的 方法 直接 在 特征 空间 里 解决 软 SVM 的 优化 问题 ， 
min (人 | wl}? +1 X max{0,1— yw yCx)?}) (16. 5) 
并 且 只 利用 核 演 化 。 基 础 就 是 我 们 在 15.5 节 介 绍 的 SGD 得 到 的 向 量 w’ 总 是 存在 于 
{gCx1)，…，y《x)) 的 线性 展开 空间 。 因 此 ， 我 们 可 以 计算 对 应 系数 a 而 不 是 w"?。 
正式 地 ， 设 K 是 核 函 数 ， 也 就 是 说 ， 对 所 有 的 x， x’. K(x, x)=), y(x ))。 
我 们 要 考虑 R" 里 的 两 个 向 量 ， 对 应 于 15. 5 节 里 SGD NO Aw”. EREM, BO 是 一 个 
向 量 ， 使 得 
0” = >» Bi? plx) (16. 6) 
[a] ta? (79 
w? = >) a; pCa) (16. 7) 
向 量 o AB 的 更 新 按照 以 下 流程 。 


SGD 解 市 核 函 数 的 软 SVM 


目标 : 解 等 式 (16. 5) 


参数 : 工 
初始 化 : Bp? =0 
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for :一 ]， iais: T 






l 
~ Kb), == =, PL) 
设 F B 


从 [mj 里 随机 均匀 选取 1 
对 所 有 的 IAL, RRO? = 


If ya; K(x; 了 D, < l 
j=l 


设 gee = Bi? Fyi 
Else 


it BT? =g 
mi a 

输出 : w = T EDF HP a= => a” 
J= t=1 








下 面 的 引 理 说 明 前 面 的 这 个 实现 等 价 于 15.5 节 描 述 的 在 特征 空间 里 运行 SGD 的 
引 理 16.3 wÆ 15.5 节 描 述 的 在 特征 空间 里 应 用 SGD 流程 的 输出 , 了 一 


a(x) 是 应 用 核 函 数 SGD RAH, PAW 


jel 


证 明 我 们 会 说 明 对 于 任意 的 上 等 式 (16. 6) 成 立 ， 其 中 62 是 在 特征 空间 里 应 用 SGD 
算法 输出 的 结果 。 根据 定义 ， a? =p, wo =—9", 这 就 说 明 等 式 (16.7) 是 成 立 的 ， 


接 下 来 继续 我 们 的 证 明 。 为 了 证 明 等 式 (16. 6) 成 立 ， 我 们 用 一 个 简单 的 归纳 证 明 。 对 于 
上 一 1， 等 式 显然 成 立 。 假 设 当 t 宇 1 时 等 式 成 立 ， 那 么 


ylw? JK)) = y; (2 a? px;) DRY = yi > aj K Gti 
因此 ， 两 个 算法 的 条 件 是 等 价 的 ， 如 果 我 们 更 新 0, IAA 


a) = g” + yi (x;) = +" Bi? Cx; ) + yh (x) = 让， Bi? E ) a 
j=l j=l 


16.4 水 结 


从 定义 域 映 射 到 高 维 空间 ， 在 高 维 空间 里 应 用 的 半空 间 预 测 器 具有 很 强 的 表达 能 力 。 
一 方面 我 们 受益 于 丰富 且 复 杂 的 假设 类 ， 但 也 要 解决 样本 复杂 度 和 计算 复杂 度 带 来 的 困 
难 。 在 第 10 章 ， 我 们 讨论 了 AdaBoost 算法 ， 它 应 用 弱 学 习 器 的 同时 也 面临 许多 挑战 尽 
管 在 高 维 空间 中 处理 问题 ,但 在 每 次 迭代 中 我 们 都 会 学 得 一 个 效果 比较 好 的 坐标 。 本 章 我 
们 介绍 了 一 种 不 同 的 方法 ， 核 技巧 。 想 法 是 ， 为 在 高 维 空间 中 学 得 一 个 半空 间 预测 器 ， 我 
们 不 必 知 道 样 本 在 此 空间 的 具体 表达 形式 ， 而 只 需 知道 样本 映射 之 后 内 积 的 值 。 通 过 核 函 
数 ， 计 算 高 维 空间 里 样本 之 间 的 内 积 就 不 需要 知道 样本 的 具体 表达 形式 。 我 们 也 介绍 了 如 
何 将 核 函数 应 用 到 SGD 算法 中 。 

特征 映射 及 核 技 巧 的 思想 使 得 我 们 可 以 对 非 向 量 数据 应 应 用 半空 间 及 线性 预 FW AS AY HE 

。 我 们 也 介绍 了 如 何 利用 核 函 数 在 字符 串 域 里 学 习 预 测 器 。 
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我 们 说 明了 核 技巧 对 于 SVM 的 有 效 性 。 当 然 ， 核 技巧 可 以 应 用 于 其 他 很 多 算法 。 练 
习 中 给 出 了 一 些 例子 。 

线性 预测 器 及 凸 问题 这 一 系列 的 章节 以 本 章 为 结尾 。 接 下 来 的 两 章 将 会 介绍 完全 不 同 
类 型 的 假设 类 。 


16.5 文献 评注 

在 SVM 的 背景 下 ， 核 技巧 由 Boser 等 人 引入 (1992)。 也 可 参见 Aizerman 等 人 
(1964), Scholkopf 等 人 最 早 提出 核 技巧 可 以 用 于 任何 仅 依赖 于 内 积 的 算法 (1998)。 表 示 
定理 的 证 明 由 Sch6lkopf 等 人 (2000) 和 Schölkopf 等 人 (2001) 给 出 。 引 理 16. 2 的 条 件 是 
Mercer 定理 的 简单 形式 。 许 多 文献 提出 了 各 种 各 样 应 用 的 核 阻 数 。 读 者 可 参阅 Scholkopf 
和 Smola(2002) 。 


16.6 练习 

16.1 考虑 16. 2. 1 节 描 述 的 在 文件 里 寻找 字符 串 的 任务 。 证 明 类 里 的 每 个 元 素 都 可 由 
yl(z) 上 的 线性 分 类 器 组 合 而 成 ， 并 且 它 们 的 范 数 为 1， 间隔 为 1. 

16.2 核 化 感知 器 : 说 明 仅 知道 经 过 核 限 数 之 后 的 样本 时 ， 如 何 运 行 感知 右 算 法 。 
提示 : 衍生 算法 等 同 于 核 函 数 应 用 到 SGD 算法 中 。 

16.3 核 岭 回归 : 带 有 特征 映射 y 的 岭 回 归 问 题 就 是 要 寻找 一 个 回 量 z 使 得 以 下 也 数值 
最 小 


fiw) =A wl? +2 >} (( w(x; )) — y) (16. 8) 
i=] 
然后 返回 预测 硕 
h(x) = (wx 
Ue BH Gn fa RF AK eR BN Jive FA EN aS E EE FR 
RE: 表示 定理 告诉 我 们 存在 向 量 CR RG Day (x RFA. 8) 的 解 。 
1) wWG#ZRFS 和 天 的 Gram 矩阵， 也 就 是 说 ， G;,;= K(x; » Xi)。 定义 g:R”—>R 
g(a) =à + a"Ga ++), KaG.) — y)? (16. 9) 
i=] 
其 中 G.,; 是 G 的 第 i 列 。 证 明 如 果 w"* 使 得 等 式 (16.9) 最 小 ,那么 w* = 
Xar g(x) 是 f 的 解 。 
i=] 


2) 寻找 a* 的 封闭 表达 式 。 

16.4 设 六 是 任意 正 整 数 。 对 任意 的 zx，z E(1，…，N} 定 义 

K(z,2') = min{z,2z’} 
证 明 K eK PR. HAL, FREY %: (1, «+, NJ SH, 其 中 H ERR 
但 特 空间 ， 使 得 
Vrz E {ly N)KCzz) = (f(x) ,p(x')) 

16.5 超市 管理 员 想 要 根据 顾客 的 购物 清单 学 习 预 测 该 顾客 是 否 有 小 孩 。 特 殊 地 ， 他 独立 
同 分 布地 采集 了 一 些 顾客 样本 ， 对 于 顾客 i, 设 x;C{1，…，d} 表 示 顾 客商 品 子 集 ， 
设 y;€ 1 士 1} 是 表明 顾客 是 否 有 小 孩 的 标签 。 作 为 先 验 知识 ， 管 理 员 知道 一 共有 
个 商品 ， 当 且 仅 当 顾 客 购买 了 这 个 商品 里 至 少 一 个 时 ， 标 签 为 1。 当然 ， 这 上 个 
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商品 具体 是 什么 并 不 知道 (否则 ， 就 没有 必要 学 习 了 )。 男 外 ， 根 据 超市 规定 ， 每 个 
顾客 最 多 可 以 购买 ;个 商品 。 帮 助 管理 员 设 计 一 种 学 习 算 法 使 得 时 间 复 杂 度 与 样本 
复杂 度 都 是 关于 s, k, l/e 的 多 项 式 。 
设 二 是 样本 集 ， 少 是 将 二 映射 到 和 希 尔 但 特 空间 V 的 特征 映射 。 设 K: XXR EE 
特征 空间 V 里 应 用 内 积 的 核 函 数 。 
考虑 根据 平均 最 近 的 类 预测 未 知 样本 的 二 分 类 算法 。 正 式 地 ， 给 定 训 练 序 列 S= 
(Wis Mja y Kas eds 对 任意 的 yE { 土 1}， 定义 

cy = J ga) 
其 中 ，m, 二 | (i; y=5y} |. BEm 和 mx_ 不 为 零 。 那 么 算法 的 输出 按照 如 下 决策 
规则 : 
wz) —e |< | glx) e-l 


h(x) = h 其 他 


D B w=ces—c-, B=F (lelle). IEN 


h(x) = sign( <w, p(x) +b) 
2) 说 明 在 不 知道 y(x) 或 w 元 素 情况 下 ， 如 何在 核 函 数 的 基础 上 描述 A), 
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多 分 类 、 排 序 与 复杂 预测 问题 





多 分 类 是 如 何 将 待 分 类 点 划 归 到 几 个 目标 类 别 之 中 的 问题 。 这 就 是 说 ， 我 们 的 目标 是 
学 习 一 个 预测 器 hh: 基 =， 其 中 的 是 一 个 类 别 的 有 限 集合 。 这 种 分 类 的 应 用 包括 ， 比 如 
根据 文件 主题 进行 相应 的 分 配 ( 人 是 文件 的 集合 ， 了 是 一 个 可 能 的 文件 主题 的 集合 )， 或 者 
识别 哪 一 个 目标 产生 了 相应 的 图 片 (是 图 片 的 集合 而 》 是 可 能 的 产生 目标 的 集合 )。 

多 分 类 的 中 心 任务 就 是 多 类 别 机 器 学 习 ， 这 也 刺激 产生 了 一 大 批 则 在 解决 该 任务 的 方 
法 。 也 许 最 直接 的 方法 就 是 将 多 任务 的 分 类 转化 为 二 分 类 问题 。 在 17. 1 节 ， 我们 将 探讨 
最 普通 的 两 种 简化 方法 ， 以 及 它们 的 主要 缺点 。 

我 们 之 后 将 描述 一 个 针对 多 分 类 的 线性 预测 器 问题 。 利 用 之 前 很 多 章节 介绍 的 RLM 
和 SGD 架构， 我 们 描述 了 几 个 实用 的 针对 多 分 类 预测 的 算法 。 

在 17. 3 节 ， 我 们 将 展示 如 何 使 用 多 分 类 学 习 机 去 处 理 复杂 的 预测 问题 ， 在 这 些 问 题 
中 ， 站 集合 可 能 非常 巨大 , 但是， 可 能 具有 一 些 结构 可 以 利用 。 这 种 学 习 任 务 经 常 被 称 为 
结构 化 输出 学 习 。 举 一 个 特别 的 例子 ， 就 识别 手写 文字 的 任务 来 说 ， 这 种 情况 下 ，y 的 集 
合 是 特定 字段 边界 长 度数 值 作为 变量 所 产生 的 所 有 组 合 情 况 (所 以 2 的 大 小 是 根据 最 大 字段 
长 度 而 指数 变化 的 )。 

最 后 ,在 17.4 节 和 17.5 节 中 ， 我们 讨论 了 在 一 定 情况 下 ， 学 习 者 需要 将 样本 集中 的 
点 根据 它们 的 “关联 性 ”进行 排序 的 问题 。 一 个 典型 的 应 用 就 是 根据 搜索 问 句 请 求 ， 按 照 
与 搜索 内 容 的 相关 性 对 搜索 结果 进行 排序 的 问题 。 我 们 描述 了 几 种 根据 其 学 习 结 果 相 关 性 
来 评价 预测 器 的 测量 标准 ， 并 且 对 于 如 何 利用 线性 预测 器 来 有 效率 地 解决 排序 问题 进行 了 
介绍 。 


17. 1 一 对 多 和 一 对 一 
解决 多 分 类 预测 的 一 个 最 简单 的 方法 就 是 将 其 简化 为 一 个 二 分 类 问题 。 回 想 一 下 多 分 
类 预测 ， 我 们 所 想 学 习 的 函数 是 :XxX 一 了 。 没 有 泛 化 的 损失 ， 我们 则 标注 为 = {1，…， 
&} 。 在 一 对 多 (One-versus-All) (也 称 为 一 对 其 他 剩余 ) 的 方法 中 ， 我 们 训练 站 个 二 元 的 分 
类 需 ， 每 一 个 都 产生 一 类 和 其 他 剩余 类 之 间 的 划分 界限 。 即 ， 给 定 一 个 训练 集 : S= 
{ Cis Hide te (ey Ym} 其 中 的 每 一 个 Ji 都 在 集合 7 中 ， 我 们 建立 个 二 元 的 训练 子 
集 S1，…，S;， 其 中 S; 二 (x ，( 一 D1 )，…，(xm，( 一 1)1l5。xi )。 用 文字 表述 的 话 ， 
S: 是 那些 在 S 集合 中 标签 为 i 而 标注 标签 值 为 1( 否 则 为 一 1) 的 样本 点 的 集合 。 对 于 每 一 个 
iE [kj]， 我 们 训练 一 个 基于 S: 集合 的 二 元 的 预测 器 h;: 一 { 土 1} ， 希 望 当 且 仅 当 x 属于 类 
别 z WY, h(x) 的 输出 等 于 l, 那么 ， 给 定 his **%5 hy, 我 们 建立 了 一 个 多 类 别 的 分 类 器 ， 
应 用 的 规则 是 
h(x) € argmaxh; (x) (17; 1) 


当 超过 一 个 二 元 假设 的 预测 是 “1” 的 时 候 ， 某 种 程度 上 我 们 应 当 决定 预测 的 类 别 ( 比 
如 ， 我 们 随意 地 做 一 个 决定 ， 通 过 选择 在 argmaxh; (x)) 中 序数 最 小 的 来 打 断 相互 连接 )， 


一 个 更 好 的 方法 是 ， 不 论 哪 一 个 h: 隐 含 了 另外 的 附加 信息 ， 都 可 以 在 y=i 的 预测 中 被 置 
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信 。 例 如 ， 在 一 个 半空 间 划 分 的 情况 下 ， 实 际 的 预测 结果 是 sign((zw，x))， 但 是 我 们 可 
以 把 (w，x) 当做 预测 中 的 置信 。 在 这 种 情况 下 ， 我 们 可 以 应 用 在 公式 (17. 1) 中 给 出 的 多 
类 别 分 类 ， 进 行 实际 值 的 预测 。 一 对 多 方法 的 伪 代 码 在 下 面 给 出 。 













一 对 多 
输入 : 
训练 集 S=(x); yi) sila! | Es 


二 分 类 莫 法 A 
for 每 个 1EY 
ASi =la (1i, (xm, (Din) 
h;=A(S;) 
输出 : 


Z ŽRELA AWE argmax h; (x) 
iE y 


男 一 个 流行 的 简化 是 一 对 一 (All-Pairs) 的 方法 ， 就 是 把 类 别 的 全 部 成 对 组 合 进 行 相互 
的 比较 。 正 式 地 ， 给 定 一 个 训练 集 S= yds ts ans 加) 其 中 的 每 一 个 yi 都 在 
[&] 中 ， 对 于 每 一 个 IIS 我 们 建立 一 个 二 元 的 训练 序列 S BARH S 的 全 部 样 
本 点 ,标签 是 i 或 者 ;} 。 对 于 每 一 个 样本 ， 如 果 多 分 类 中 的 标签 是 i， 我 们 设 定 在 Si 中 的 
标签 值 是 十 1， 而 如 果 对 应 的 是 7 则 标注 为 一 1。 接 下 来 ,我 们 在 每 一 个 S;,; 上 训练 一 个 二 
分 类 算法 来 得 到 有 h;,;。 最 后 ， 我 们 建立 一 个 通过 获得 最 多 数量 “wins” 的 类 别 作为 预测 的 

[191] 多 类 别 的 分 类 器 。 一 对 一 方法 的 伪 代 码 在 下 面 给 出 。 













训练 集 SS 一 (Wis ys 1 
二 分 类 算法 A 
for 每 个 i:，jE》 且 满 足 i<j 
初始 化 Si,j 为 空 序列 
for =l; ==, m 
若 y,=i, Ae(x,, 1)8) S; 
#y=j, w, -DA S,, 
A hij =A(Si,;) 
输出 : 
多 类 别 假设 定义 为 h(x) € argmax( X signG ahi, (x)) 


虽然 简化 的 方法 如 一 对 多 和 一 对 一 可 以 根据 现 有 的 算法 简单 地 进行 构建 。 二 元 的 学 习 
合并 不 能 意识 到 实际 上 我 们 准备 使 用 它 的 假设 输出 来 构建 一 个 多 分 类 的 预测 器 ， 而 这 也 许 
会 叶 致 并 不 令 人 满意 的 结果 ， 正 如 在 下 面 的 例子 中 说 明 的 一 样 。 


考虑 一 个 多 分 类 问题 ， 其 对 应 的 二 R: ， 标 签 集 7 二 {1，2，3}。 假 设 这 些 不 
同类 别 的 样本 被 安放 在 下 边 描述 的 不 相交 的 球形 中 。 
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假设 属于 类 别 1，2，3 的 大 致 概率 分 别 是 40 为 ，20 加 和 40%。 考 虑 应 用 一 对 多 的 方 
法 ， 并 且 假 设 利 用 该 方法 进行 的 二 分 类 是 关于 假设 类 别 半空 间 划 分 的 ERM。 观 察 一 下 这 
个 问题 对 于 类 别 2 和 其 他 类 别 的 分 界线 ， 理 想 的 半空 间 应 该 是 全 部 标记 负 的 分 类 胡 。 所 
以 ,根据 一 对 多 方法 的 多 分 类 器 可 能 在 类 别 2 的 划分 问题 上 出 错 ( 如 大 对 于 h(x) 定义 的 连 
接 由 于 数值 的 类 别 标签 被 打破 ， 这 种 情况 就 会 发 生 )。 对 比 来 说 ， 如 有 果 我 们 选择 


hi(x) = 《wisx) EP wy 一 (erg) me = (0,1), w; = F 
那么 根据 h(x) 一 argmaxhi(x) 定 义 的 分 类 融 将 完美 地 预测 所 有 样本 。 我 们 可 以 看 到 即便 来 
目 于 h(x)=argmax wi , xy) 的 预测 硕 相 对 误差 近乎 0， 一 对 多 方法 可 能 并 不 能 成 功 地 找到 
一 个 好 的 类 别 预测 需 。 


17.2 线性 多 分 类 预测 


由 于 简化 方法 的 不 完备 性 ， 我 们 在 这 一 节 将 会 学 习 一 个 更 加 直接 的 多 分 类 预测 器 。 我 
们 将 介绍 线性 多 分 类 预测 器 族 。 对 于 激发 我 们 建立 这 部 分 新 的 方法 的 原动力 ， 回 想 一 个 线 
性 分 类 器 进 行 二 分 类 ( 即 半 空间 ) 的 假设 由 来 : h(x) 二 sign(《(w，x))。 

下 面 是 对 于 这 个 预测 的 等 价 描述 : 

h(x) = argmaxs w » yx) 

其 中 yx 是 把 向 量 x 中 的 每 个 元 素 乘 以 y 得 到 的 新 向 量 。 

这 种 表述 将 多 分 类 的 半空 间 问 题 进行 了 很 自然 的 一 般 化 。 令 更 :七 XJ-~Rs 为 一 个 类 敏 
感 的 特征 映射 。 具体 来 说 ， 亚 将 一 对 (x，y) 作 为 输入 ， 并 将 其 映射 到 一 个 4 维 的 特征 向 量 
中 。 直 觉 地 讲 ，Y(x，y) 被 看 做 一 个 评分 函数 ， 可 以 衡量 标签 y 有 和 多么 适合 样本 x。 我 们 
之 后 将 会 进一步 介绍 它 。 给 定 亚 和 一 个 向 量 wE TR， 我 们 可 以 定义 一 个 多 分 类 的 预测 器 ， 
hF, 如 下 所 示 : 

h(x) = argmax< w, »W(x,y))> 

具体 来 说 , h 根据 输入 x 的 预测 标签 获得 了 最 高 的 权重 得 分 ， 而 这 种 权重 是 根据 向 量 
w 来 定义 的 。 

SWAR 向 量 空间 中 的 一 些 子 集 , Hi, W={weR:|w|<B), HH BDO, 每 
一 组 (多,，W) 定 义 一 个 多 分 类 预测 器 中 的 假设 类 ， 

Hey = (x|—> argmax(w,W(x,y)): ww E W} 

当然 ， 我 们 会 很 快 产生 一 个 待 解决 的 问题 ， 这 也 是 接 下 来 的 探讨 ， 如 何 去 构 建 一 个 好 
Nw? 注意 ， 如 果 J) 一 { 士 1} 并 且 有 Vix, pW =x 和 WW 二 民 ， 那 么 Hyw 变 成 对 于 二 分 类 的 
齐 次 半空 间 划分 假设 类 。 


17.2.1 如 何 构 建 Y 
正如 先前 提 到 的 ， 我们 可 以 把 (x，y) 看 做 是 一 个 评价 标签 y 是 否 适合 x 的 评分 函 
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数 。 自 然 地 ， 设计 一 个 好 的 亚 就 正如 设计 一 个 好 的 特征 映射 (这 和 我 们 在 第 16 章 所 述 的 ， 
以 及 在 接 下 来 的 第 25 章 将 会 进一步 讨论 的 相似 )。 下 面 我 们 将 给 出 两 个 有 效 的 构建 。 
1. SEREHE 
仿 7= 二 {1，…， 上 上} 且 守 一 R"。 我 们 定义 V:XXY—R’, Hp d= 一 nk， 具体 形式 如 下 : 
Pixy) = [0.205024 ssr 0 0,°%*,0] C17..2) 


ERY i)n peas yn 


也 就 是 说 ， 亚 (x，y) 由 个 疝 量 组 成 ， 其 中 的 每 个 都 是 维 ， 除了 第 y 个 回 量 设 为 x， 
我 们 把 其 他 全 部 都 定义 为 零 向 量 。 它 允许 我 们 把 w ER AEE R PR 权重 组 成 的 向 量 ， 
即 ， w= [wis weg we | ， 因此 称 为 多 重 舌 量 构 建 。 通过 构建 ， FMA Cw, W(x, y) ) 一 
(w,，X)， 并 且 多 分 类 预测 变 成 h(x) =argmax( wy, Xx) 。 多 分 类 预测 在 一 Re 上 的 几何 表 


示 如 下 图 所 示 。 





2. TF-IDF 

之 前 对 于 和 (x，y) 的 定义 并 没有 完全 利用 关于 问题 的 先 验 知识 。 我 们 接 下 来 将 描述 一 
个 并 不 具体 表现 出 先 验 知识 的 特征 函数 亚 。 令 为 关于 文件 的 集合 ， 而 了 是 其 可 能 的 主题 
的 集合 。 令 d 为 对 应 字 的 词典 的 大 小 。 对 于 字典 中 的 每 一 个 单词 ， 相 应 的 序数 为 7， 令 
TFG ，x) 为 一 个 词 符合 序数 7 在 文件 x 中 所 出 现 的 次 数 。 这 种 量化 指标 被 称 为 词 项 频率 
(Term-Frequency)。 男 外 ， 规 定 DFG ，y) 是 序号 为 7 的 词 在 关于 文件 的 训练 集中 与 主题 
y 不 符合 的 数量 。 这 种 量化 指标 被 称 为 文档 频率 (Document-Frequency)， 并 且 衡 量 序 数 为 
j 的 词 是 否 在 其 他 主题 中 出 现 频繁 。 现 在 ， 我 们 定义 Vi KVR (FEV) (x, y= 


TFG，mlog( PFC D 方 )， 其 中 必 是 训练 集中 全 部 文件 的 数目 。 上 述 量化 标准 被 称 为 词 


频 逆 文 档 频 率 ， 或 者 简写 为 TF-IDF。 直 觉 地 讲 ， 如 果 对 应 序数 7 的 词 在 许多 份 文件 x 中 
出 现 ， 和 W(x，y) 应 当 得 到 一 个 大 的 结果 ， 而 不 会 出 现在 不 属于 主题 y 的 全 部 文件 之 中 。 
需要 注意 的 是 ， 和 之 前 多 重 矢量 的 构建 不 同 ， 现 在 的 构建 中 秋 的 维度 并 不 取决 于 主题 的 
数目 (换言之 ,不 取决 于 集合 7 的 大 小 )。 


17.2.2 对 损失 敏感 的 分 类 


目前 为 止 ， 我 们 使 用 0 一 1 损失 函数 作为 h(x) 表 现 的 衡量 标准 。 这 就 是 说 ,假设 有 对 
于 一 个 样本 点 (x，y) 所 产生 的 损失 在 h(x) 关 y 的 时 候 值 为 1， 反 之 则 为 0。 在 一 些 情况 中 ， 
损失 隐 数 应 当 要 对 不 同 的 错误 有 不 同 的 惩罚 敏感 度 。 举 例 来 说 ， 在 目标 识别 的 任务 中 ,将 
一 张 含 有 老虎 的 图 片 识别 为 猫 要 比 识别 为 鲸鱼 的 错误 严重 程度 低 一 些 。 这 可 以 通过 设计 一 
个 具体 的 损失 也 数 来 实现 ，A: 2XJY- 一 了 ， 其 中 对 于 每 一 组 标签 y 和 yy ' ， 预 测 标签 y' 而 
真实 标签 为 y 所 带 来 的 损失 可 以 被 定义 为 A(y ，y)。 根 据 这 样 的 假设 ，A(y，y) 二 0。 其 实 ， 
0 一 1 损失 可 以 简单 地 通过 设 定 A(y ，y) 二 1cy# 轨 表示 。 
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17. 2.3 经验 风险 最 小 化 
我 们 之 前 已 经 定义 了 假设 类 Hw.w ， 规 定 了 损失 函数 A。 为 了 学 习 关 于 损失 函数 的 类 ， 
我 们 可 以 应 用 关于 这 个 类 的 ERM 准则 。 也 就 是 说 ,我 们 可 以 寻找 一 个 多 分 类 假设 hE€ 
Hy.w ， 该 多 分 类 假设 可 以 通过 一 个 向 量 w 来 表示 其 参数 ， 这 样 就 可 以 最 小 化 损失 函数 A 
的 经 验 风 险 ， 
Lath = LS ACG),y,) 


现在 我 们 要 证 明 的 是 当 W=R 并 且 在 可 实现 情况 下 ， 利 用 线性 回归 算法 极 有 可 能 有 

效 地 解决 ERM 问题 。 确 实 ， 在 可 实现 情况 下 ， 我 们 确实 需要 找到 向 量 w ER 使 其 满足 
Yi Elm] y; = argmax( w W(x; ,y)) 
等 价 地 ，w 也 需要 满足 以 下 一 组 线性 不 等 式 : 
Vielm|,Vyvey \ ly}. w, Wx.) > (ws, V(x ,y)) 

找到 满足 之 前 线性 等 式 的 z 等 同 于 解决 了 一 个 线性 算法 问题 。 

正如 二 分 类 问题 一 样 ， 我 们 也 可 以 使 用 一 种 通用 的 感知 算法 来 解决 ERM 问题 ， 见 练 
4 17.2. 

在 不 可 实现 的 情况 下 ， 解 决 ERM |e) lB RE. RIAH ATER 
蔡 损失 函数 ( 见 12. 3 节 ) 来 解决 这 个 困难 。 尤 其 是 将 合 页 损失 (hinge loss) 泛 化 到 多 分 类 
问题 。 


17.2.4 泛 化 合 页 损失 


回忆 一 下 ， 在 二 分 类 问题 中 ， 合 页 损失 被 定义 为 max{0，1 一 yw，x)}。 现 在 我 们 将 
合 页 损失 推广 到 多 分 类 预测 ， 将 其 表示 成 以 下 形式 
Rote) == argmax(w, P(x,y )) 
一 个 替代 的 凸 损 失 应 该 限定 原来 非 凸 损失 Alho (Cxz)，y) 的 上 界 。 为 了 推导 关于 
A(hs(x)，y) 的 上 界 ， 我 们 首先 需要 注意 的 是 h(x) 的 定义 意味 着 
(ws Wie)? <= (we eh, Ce) 
因此 ， 
Aha CRN 9) SAH CY) sy) Fetws Weho) — Pisy) 
由 于 h(x)EY， 我 们 可 以 通过 下 面 的 公式 (17. 3) 来 限定 右边 部 分 上 界 
maz(ACy sy) + (ws Pay) — Yr,y))) ,gn Cady (17. 3) 
我 们 用 术语 “汉化 合 页 损失 ”来 表示 之 前 的 叙述 。 正 如 之 前 所 说 的 , Cw, (x, y))> 
A(hw(x)，y)， 而 且 等 号 表示 在 任何 情况 下 ， 正 确 标 记 的 得 分 都 要 比 任何 其 他 标签 y' 的 得 
分 大 至 少 Aly, y), EREM, 
Vy EY \iy} lw Vx,y)) > Cw, W(x, y')) HAG’, y) 
很 显然 ， 由 于 t(w，(x，y)) 是 线性 函数 w 的 最 大 值 ， 所 以 L(w，(x，y)) 是 一 个 关于 
w 的 凸 函数 ( 见 第 12 章 的 论断 12.5), Cw, x, yD È o - 利 普 希 茨 函 数 ， 其 中 p= 
max|| W(x, y)—wWx, yl. 
评注 ”既然 在 二 分 类 情况 下 ， 我 们 使 用 “ 泛 化 合 页 损失 ”这 个 名 称 ， 当 站 = { 土 1} 时 ， 


如 果 设 定 Pa, V= ， 那 么 泛 化 合 页 损失 变 成 了 二 分 类 问题 的 普通 合 页 损失 ， 
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(w(x, y)) = max{0,1— y(w,x)} 
直观 的 几何 说 明 
特征 函数 更 : XXVR 在 R 维 空间 中 将 每 个 x 映射 到 |y| 向量。 如 果 存 在 一 个 方 回 
w， 当 将 | 了 | 向 量 映射 到 这 个 方向 时 ， 每 一 个 向 量 可 以 用 标量 (w， 亚 (x，y)) 来 表示 ， 
Ll(w，(x，y)) 将 为 零 。 我 们 可 以 基于 这 些 标量 来 排序 不 同 的 点 ， 使 得 
e 对 应 正确 的 y 的 点 排 在 前 面 。 
o 对 于 每 一 个 y' £y, lw, Px, ylw, Px, y )) 之 间 的 偏差 比 用 y 替代 > 的 
损失 更 大 。(w， 亚 (x，y)) 一 (w， 亚 (xX，y )) 也 指 “ 间 隔 ”(margin)( 见 15.1 4). 
可 以 通过 下 图 表 来 说 明 : 
{TO , 
1 
Px, y") 以 + 






= he 
VN a "ey 
+= ~ He, 9’) 


17.2.5 多 分 类 SVM 和 SGD 


一 旦 定义 了 泛 化 合 页 损失 ,我 们 就 得 到 了 一 个 凸 利 普 希 次 可 学 习 问 题 。 我 们 就 可 以 利 
用 通用 的 方法 来 解决 这 样 的 问题 。 尤 其 是 利用 在 第 13 章 中 学 过 的 RLM 方法 得 出 多 分 类 
SVM 准则 : 





多 分 类 SVM 










输入 :; Crs yi) r (Kms Ymd 
参数 : 

正则 化 参数 ASO 

损失 函数 A: XY 一 RR 

类 敏感 特征 映射 P: XVR 
求解 : 


i TE E- ' i 
min(a lwl taa max(ACy YI iw, Wx sy) W(xi, yi)))) 


输出 : 预测 器 hy (x)=argmax( w, V(x, y)) 
vi 


我 们 可 以 使 用 一 般 的 凸 优化 算法 (或 者 是 使 用 15. 5 节 中 描述 的 方法 ) 来 解决 多 分 类 
SVM 的 优化 问题 。 让 我 们 分 析 结 果 假 设 的 风险 。 分 析 可 以 完美 无 偏差 地 遵从 第 13 章 中 对 
巴 利 普 硕 效 问 题 的 一 般 分 析 。 尤 其 是 ， 应 用 推论 13.8 和 泛 化 合 页 损失 限定 A 损失 的 上 界 
这 一 事实 ， 很 容易 得 到 一 个 类 似 推论 15. 7 的 推论 。 


推论 17.1 ADIRMAAXXVAA, P:XXY>R, Ri THA KEK, yO, 满足 


2 
(Px, y|<o/2, + B>0, ARR S~D" 上 用 参数 1 一 ee SVM, h, 
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是 多 分 类 SVM Her, AA 
2 p2 
E [LAD] SE B LE Cw] min Leh" Cu) + 80 B 
S~D” S~D” u: || u m 


AS 


其 中 ， LA (h) = Ea.y~p LACA(x)), yl, Lae fs N CX y)) I. bx 村 
式 (17. 3) 中 定义 的 泛 化 合 页 损失 。 

我 们 也 可 以 应 用 SGD 学 习 框 架 来 最 小 化 第 14 HEY LEO (w)。 回 顾 一 下 
论断 14. 6， 说 明了 处 理 最 大 化 函数 的 次 梯度 。 根 据 论断 14.6， 为 了 找到 泛 化 合 页 损失 的 
nn 我 们 要 找到 yEJY， 使 其 能 够 实现 泛 化 合 页 损失 定义 中 的 最 大 化 。 它 遵从 以 下 1197 
算法 : 


多 分 类 学 习 的 SGD 
参数 : 
标量 7>0, Hk T>0 
损失 函数 A: VXYV—R, 
类 敏感 特征 映射 W: XX YR’ 
初始 化 : w =0E R 
WF icl: 2, +, T 
A(X, y)~D 
找到 yE argmax( Aly", ytiw™, Wx, y)—Wx, y))) 


4A-v,=Wx, y)- Wx, y) 
Rw? =w(t)—n»v, 





我 们 对 推论 14. 12 中 给 定 的 SGD 进行 一 般 地 分 析 可 以 很 快 得 出 下 列 推论 : 


推论 17.2 4SDIRMAXYVSA, V:ÆXY>R, i FAH XE X, yEV, 满足 
(Pæ, y)|<p/2, + B>0, MASA D>, MS TKRRBA LHERAK 

量 ) 来 执行 SGD 进行 多 分 类 学 习 
r> 


e’ 


2 
当 q= 计时 SGD 的 输出 满足 


Bp he] E Lg Cw) | < „min Lg tinge (u) +e 
S~ 1 


评注 ”推论 17. 1 和 推论 17. 2 ee eeNTEd. 
我 们 下 一 他 将 依赖 于 这 个 事实 。 然 而 ， 边 界 有 可 能 通过 亚 (x，y) 的 形式 间接 地 依赖 于 标签 
集 ] 的 大 小 。 只 有 存在 一 些 向 量 uy lu] <B, 使 得 LE (w) 不 是 特别 大 的 情况 下 ， 边 界 
才 有 意义 。 


17.3 结构 化 输出 预测 
结构 化 输出 预测 问题 是 一 个 多 分 类 问题 。y 是 一 个 非常 大 的 假设 类 ， 但 是 被 赋予 一 个 
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预定 义 的 结构 。 此 结构 在 构建 有 效 的 算法 中 扮演 着 重要 角色 。 为 了 促进 解决 结构 学 习 问 
题 ， 考 虑 光学 字符 识别 问题 。 假 设 我 们 接收 一 幅 手写 字 图 像 ， 并 要 预测 图 像 中 是 哪些 字 。 
为 了 简化 背景 ， 假 设 我 们 知道 如 何 把 图 像 分 割 成 序列 ， 这 些 图 像 每 一 幅 都 包含 了 一 个 对 应 
于 单个 字符 的 补丁 图 像 。 因 此 ，Xt 是 一 组 图 像 序列 ，》 是 一 组 字母 序列 。 注 意 ，》 的 大 小 随 
最 大 长 度 的 增加 呈 指 数 增长 。 对 应 于 标签 y= “AIT” ENR x 举例 如 下 。 


+4 





为 了 解决 结构 预测 ， 可 以 利用 前 面 章节 描述 的 线性 预测 器 的 图 数 族 。 特 别 地 ， 我 们 需 
要 定义 一 个 针对 该 问题 的 合理 的 损失 函数 和 人， 也 需要 一 个 对 类 敏感 的 好 的 特征 映射 亚 。 说 
“好 ”， 意 味 着 一 个 特征 映射 对 关于 OW A A 的 线性 预测 的 类 ， 将 会 带 来 一 个 低 的 近似 误差 。 
一 旦 如 此 定义 ， 就 可 以 利用 前 一 节 定 义 的 SGD 学 习 算 法 。 

但 是 ，J 的 庞大 规模 带 来 一 些 挑 战 : 

1) 为 了 运用 多 分 类 预测 ， 我 们 需要 解决 关于 站 的 最 大 化 问题 。 当 站 非常 大 时 ， 我 们 如 


何 有 效 地 预测 ? 
2) 我 们 如 何 有 效 地 训练 w? 特别 地 ， 为 了 运用 SGD 规则 ， 我 们 再 次 需要 解决 关于 站 
的 最 大 化 问题 。 


3) 如 何 才 能 避免 过 拟 合 ? 

在 上 一 节 中 已 经 说 明 ， 一 个 多 分 类 的 线性 预测 器 的 样本 复杂 度 并 不 是 明确 地 依赖 于 类 
的 个 数 。 我 们 只 需 确保 亚 的 值 域 的 范 数 不 是 太 大 。 这 将 会 解决 过 拟 合 问题 。 为 了 解决 计 
算 上 的 挑战 ， 我 们 基于 这 个 问题 的 结构 并 定义 图 数 亦 和 和 A， 以 便于 在 定义 六 和 SGD 算法 
下 有 效 地 计算 最 大 问题 。 接 下 来 ,我们 展示 一 种 方法 来 实现 之 前 提 到 的 OCR 任务 。 

为 了 简化 表示 ， 我 们 假设 在 > 中 的 所 有 单词 的 长 度 为 >， 字母 表 中 不 同 字母 的 数目 为 
qo O y Ay 是 ?中 两 个 不 同 的 单词 ( 即 字 母 序 列 ) 。 定 义 函 数 ACy，y ) 是 在 ”和 中 不 同 


字母 的 平均 数 ， wt» _— 


peste XP LAR A TEN Fr，y)，x 是 2xr 的 矩阵 ,7 是 每 幅 图 像 的 像 
素 ，7 是 图 像 序列 中 图 像 的 数目 。x 中 的 第 7 列 对 应 于 序列 中 第 7 幅 图 像 ( 被 编码 为 一 个 像 
素 灰 度 级 的 序列 )。 亚 的 维度 幅度 设 为 d= 二 ng 十 gq。 

第 一 个 ng 特征 函数 是 “类 型 1” 特 征 ， 函 数 形 式 如 下 : 


Fi; ja x,y) = — PHAN ,一 门 
即 ， 只 将 所 有 类 别 为 ; 的 图 像 中 的 第 ; 个 位 置 的 像素 值 累加 起 来 二 维 至 标 Ci，) DAN 
处 理 类 型 1 的 特征 (i，j)。 直 观 地 ， 这 些 特征 可 以 捕获 图 像 中 的 像素 ， 这 些 图 像 的 灰 度 级 
由 一 个 确定 的 字母 表示 。 第 二 种 类 型 的 特征 形式 是 : js (xs) 二 六 Ipa ty, on 
即 ， 累 加 图 像 矩 阵 中 前 一 个 图 像 类 别 为 ;后 一 个 类 别 为 ;的 情况 出 现 次 数 ， 直 观 地 ， 这 些 
特征 可 以 捕捉 到 这 样 的 规则 ,在 一 个 词 中 可 能 见 到 “qu” 或 者 在 一 个 词 中 不 太 可 能 见 到 
rz”?。 当 然 ， 其 中 的 一 些 特征 可 能 没有 多 大 用 处 ， 因 此 学 习 过 程 的 目标 是 通过 学 习 向 量 w 
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分 配给 特征 一 定 的 权重 。 因 此 ， 带 权重 的 结果 通过 以 下 函数 将 给 出 一 个 恨 好 的 预测 : 
hy Ge) arga ws W(x, y)? 
接 下 来 说 明 如 何 有 效 地 解决 目标 函数 h(x) 的 优化 问题 ， 也 就 是 如 何 通 过 SGD 算法 求解 
上 述 优化 问题 以 获得 最 优 解 y。 这 个 问题 可 以 利用 动态 规划 过 程 来 解决 。 我 们 描述 了 在 hs 的 
定义 中 解决 最 大 化 问题 的 过 程 ， 并 且 把 SGD 算法 中 > 的 定义 的 一 个 最 大 化 问题 留 作 练习 。 


为 了 导出 动态 规划 ， 首 先 观察 并 写 出 Px, y) = Da tx, yy) ， 对 于 一 个 合适 的 


$: 莽 X[g]x[LgqjU {0} 一 RR ， 为 了 简化 ， 我 们 假设 yo 1 SFO, PXE, ENFI KR 
P; ja O ARS MX Pija (XoY sI) = i dy =) ’ Itty FF (iE. BRI AY 了 可 以 被 写成 Pij (Xs Mes 

yei) = diy =i i =) 。 因 此 ， 预 预测 函数 可 以 被 写成 
二 argmax >) (w$, Yes W122 Cle 


t=] 


接 下 来 我 们 导出 一 个 动态 程序 ， 解 决 方程 (17. 4) 中 给 出 形式 的 每 一 个 问题 。 程 序 将 会 
A>46 4 M © R”, ÑE 


Mie = max D wdy) 
IRM, AERC w, PC, 四) 等 于 maxM,， 。 此 外 ,我 们 可 以 用 一 个 递归 的 方式 计 


算 M: 
NM = max(My 十 《z,gCX SS ))) Cir: 5) 200 


得 出 以 下 算法 : 


计算 h,, (x) (由 方程 (17. 4) 给 出 ) 的 动态 规划 
输出 : 42 xER" Fee) =e w 
初始 化 : 
对 每 个 ;ELgj 
Ad PEs S&S — D) 
对 T=2,…,r 
对 每 个 ;SELgj 
A M, .如 方程 (17.5) 中 所 述 
A lAs ， 最 大 化 方程 (17. 5) 


& yı =argmaxM,,, 
对 r=r, r—1, =, 2 
> 97 = 1 x 


输出 : y= (yis eee, y,) 





17.4 HEF 

排序 是 根据 实例 之 间 的 “关联 ”排列 这 些 实例 的 问题 。 一 个 典型 的 应 用 是 排列 一 个 搜 
索引 擎 的 结果 (根据 这 些 结果 与 查询 的 关联 ) 。 另 一 个 例子 是 监控 电子 事务 处 理 的 系统 ， 对 
可 能 的 欺诈 交易 报警 。 这 个 系统 会 根据 交易 的 可 疑 程度 调控 交易 。 
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ERIE, S = 二 UX" 是 任意 长 度 的 的 所 有 实例 序列 集 。 一 个 排序 假设 类 hh 是 一 
个 接受 实例 == (x1，…，x,) CX" 的 序列 的 函数 ， 返 回 一 个 L 站 的 排列 。 更 方便 地 ， 令 h 
的 输出 是 一 个 向 量 yE 及 ， 对 y 的 元 素 进 行 排序 ， 我 们 获得 了 Lrj 上 的 排列 。 我 们 用 x(y) 来 表 
示 [r] 的 排列 。 比 如 ，r= 二 5， 向 量 y 王 (2，1，6， 一 1，0.5) 引 出 x(y) 一 (4，3，5，1，2)。 
也 就 是 说 ， 如 果 我 们 对 y 进行 一 个 升序 排序 ， 那 么 得 到 回 量 ( 一 1，0.5，1，2，6)。 现 在 
r(y); 是 在 排序 向 量 ( 一 1，0.5，1，2，6) 中 y; 的 位 置 。 这 个 符号 反映 了 排序 最 高 的 实例 
在 x(y) 中 取得 最 高 值 。 
E PAC 学 习 模 型 的 符号 中 ， 实 例 的 定义 域 是 Z= U1(X"XR),， 假设 类 XH 是 一 些 排 
序 假设 类 的 集合 。 下 面 我 们 描述 排序 问题 的 损失 函数 。 有 许多 方法 可 以 定义 这 样 的 损失 也 
数 ， 我 们 列 出 了 几 个 例子 。 对 于 全 部 例子 而 言 ， 定 义 《(h(x，y)) 二 A(h(x)，y)， 损 失 据 
A: UCR XR)>R: 。 
o 0 一 1 排序 损失 : WR y Aly 引出 完全 一 样 的 排序 ， 则 A(y ，y) 二 0; 否则 Ay’, 
yy=1, 也 就 是 说 ， Aly's yY) =l 这 样 一 个 损失 男 数 几乎 从 不 用 于 实际 
中 ， 因 为 它 不 能 区 分 x(y) 和 x(y ) 几 乎 相等 以 及 x(y) 和 x(y') 完 全 不 同 的 情况 。 
è Kendall-Tau 损失 : ME TR 同 的 (i，7) 对 的 数目 ， 这 可 以 被 写成 


ACy’ ny) = kn ry I. sign(y; —y, )Asign(y,—y; ) ] 


i=] j=r+ 


这 个 损失 函数 比 0 一 1 函数 更 有 用 ， 因为 它 反映 出 两 个 排列 的 相似 度 。 
o 归 一 化 折扣 累积 增益 (NDCG): 这 个 测量 强调 用 一 个 单调 递增 的 折扣 函数 D:N 一 


民 ，。 我 们 首先 定义 一 个 折扣 累积 增益 测度 : G(y',y) = YD (7 x: 。 通 俗 地 


讲 ， 如 果 我 们 把 y; 解释 为 目标 i 的 “正确 的 关联 ” 的 评分 ， 那么 取 要 素 间 关联 的 加 
权 和 ， 而 y; 的 权重 取决 于 在 x(y ) 中 的 目标 ;的 位 置 。 假 设 > 中 的 所 有 元 素 都 是 非 
负 的 ， 容 易 证 明 0 过 Gly ,y) <Giy.y) 。 因 此 我 们 可 以 根据 比率 GC(y',y)/Gly,y) 
定义 一 个 NDCG， 对 应 的 损失 函数 是 
a= ais, Gop DaO) j= Dix ty 
容易 看 出 A(y ，y)E[0, 1], B% r(y)=r(y Bt ACy’. y)=0. 

E SC Hr Fl pK BL AY — 7 BA Fy Pe 


ACy ,y) 二 1 一 


P = {oD è jei-ithan 
0 其 他 

其 中 <r。 这 意味 着 我 们 更 多 地 关心 有 更 高 排序 的 元 素 ， 并 完全 忽略 了 不 在 排序 前 & 的 其 
他 元 素 。NDCG 测度 被 用 来 估算 搜索 引擎 的 性 能 ， 因 为 在 这 样 的 应 用 中 忽略 不 在 排序 前 & 
的 元 素 完 全 是 有 道理 的 。 

一 旦 有 一 个 假设 类 和 一 个 排序 损失 函数 ， 我 们 就 可 以 用 ERM 准则 学 习 出 一 个 排序 函 
数 。 然 而 ， 从 计算 的 角度 来 看 ， 得 出 理想 的 结果 似乎 有 点 难 。 我 们 接 下 来 讨论 如 何 学 习 排 
序 问题 的 线性 预测 器 。 


排序 线性 预测 器 
排序 函数 的 一 个 简单 定义 是 将 样本 投影 到 某 个 向 量 w 上 ， 然 后 将 输出 的 标量 结果 当 
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做 排序 函数 的 表示 。 即 ， 假设 *CR ， 对 每 个 wER 定义 一 个 排序 函数 
hu (CX, 9228 X)) = (Cw e XI wX?) (17. 6) 
正如 第 16 章 中 的 讨论 ， 我 们 也 可 以 首先 进行 特征 映射 ， 即 将 样本 映射 到 某 个 特征 空 
间 ， 然 后 在 特征 空间 中 计算 与 w 的 内 积 。 简 单 起 见 ， 我 们 只 考虑 式 (17.6) 这 样 的 简化 
形式 。 
给 定 某 个 WWCR ， 定 义 假设 类 Hw 二 {hs:wEW)。 一旦 定义 好 这 个 假设 类 ， 选 好 排序 
tit FE pL 我 们 可 以 运用 ERM 准则 如 下 : 给 定 训 练 集 S 一 (Xi ， yı), kai- (Lees Ym)» 这 
里 每 个 (x;，y;) 都 在 (XXR)" 内， 其 中 xr; EN， 我 们 需要 搜索 wEW 以 最 小 化 经 验 风 险 


S Ahu EDY) 。 正 如 二 分 类 的 情形 ， 对 很 多 损失 函数 来 说 ， 这 个 问题 的 计算 都 是 困难 


的 ， 因 此 我 们 转 而 采用 凸 替代 损失 函数 。 我 们 将 说 明 Kendall tau 损失 和 NDCG 损失 的 
替代 。 
1. Kendall Tau 损失 范 数 的 合 页 损失 
我 们 可 以 将 Kendall Tau 损失 看 做 每 一 对 样本 间 的 0 一 1 损失 的 平均 。 特 别 地 ， 对 于 每 
对 (z，7) 我 们 重 写 为 
se -y #sign(y,—y,)] De signt Yi 一 y <0] 
在 这 里 ，(y; 一 yj; ) 二 《w，xi 一 x;)。 由 此 我 们 可 以 采用 合 页 损失 作为 上 界 ， 方 法 如 下 : 


Dot -dt <0] < max{0,1—sign(y; = y;)<(w,x; —x;)} 
在 所 有 样本 对 上 取 平 均 ， 可 以 得 到 如 下 的 Kendall tau fit RRI OCHA : 
=] r 
AChA,, (x) sy) Te max{0,1 = sign(y, = y) (WX; =X} 


上 式 右 边关 于 w 是 凸 的 ， 并 且 也 是 Kendall tau 的 上 界 。 它 也 是 参数 为 p< max || x; — x; | 
的 o - 利 普 希 交 函数 。 

2. NDCG 损失 函数 的 合 页 损失 

NDCG 损失 函数 依赖 于 预测 排序 向 量 y ER (由 它 引 出 的 排列 )。 为 引出 替代 损失 也 
数 ， 我 们 首先 观察 到 如 下 事实 。 令 V 为 所 有 在 [Lr] 上 的 表示 为 向 量 的 排列 的 集合 ; 即 ， 每 
Sve VEEL) 中 的 向 量 ， 并且 满足 对 所 有 iA; 有 vi 了 关 v;。 那 么 (参看 练习 17.4), 


ny) = argmax > | UY; CVF, 12 
= i=] 
S Pa, v) = 2》jvx,; 由 此 
i=] 


Ch (x)= ; 974; / = ` T 
元 argmax ) vi(w Ü) argmax<( w 21% <<.) 


= argmax( w,W(x,v)) 
基于 以 上 事实 ， 我 们 可 以 采用 针对 代价 敏感 的 多 分 类 问题 的 泛 化 合 页 损失 ， 把 它 作 为 NDCG 
损失 的 替代 损失 函数 : 
< max| A(v,y) + (w,W(x,v)) —(w, WX, r(y))) | 


= max[A(v,y) + >) (ui — 2 (y);) (wx) ] C17./8) 
v i=] 
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上 式 右 边关 于 w 是 是 的 。 
我 们 现在 可 以 采用 17. 2. 5 WARA SGD 方法 来 解决 这 个 学 习 问 题 。 主 要 的 计算 瓶颈 


在 于 计算 损失 函数 的 次 梯度 ， 这 等 价 于 搜索 使 得 式 (17. 8) 达 到 最 大 的 w( 人 参看 论断 14.6). 
采用 NDCG 损失 的 定义 ， 这 等 价 于 解决 以 下 问题 


argmin ) | Caw; + BD»; )) 
rs i=] 


其 中 w 王 一 (四 ，x2) 且 8 一/GC，y) 。 我 们 可 以 稍微 换个 视角 考虑 这 个 问题 ， 定 义 和 矩阵 
AER”, HP 

A;; = ja; + DCB, 
现在 ， 将 每 个 7 视 为 “工人 ”， 每 个 视 为 “工作 ”， 且 A;.; 为 将 工作 i 指派 给 工人 j 完成 所 需 
要 的 花费 。 在 这 个 视角 下 ， 搜 索 v 的 问题 被 转换 为 寻找 花费 最 少 的 指派 方式 。 该 问题 被 称 为 
“指派 问题 ”， 能 被 有 效 地 加 以 解决 。 一 种 特别 的 算法 是 “匈牙利 算法 ”(Kuhn1955)。 另 一 种 
解决 指派 问题 的 方法 是 线性 规划 。 首 先 将 指派 问题 重 写 为 


argmin >) ABa (17. 9) 
BER” i,j=1 
So 也 Vi E Cr]. >B; = Í 
j=l 


Vij < CEH: T =] 
i=] 


VijsB;; € {0.1} 
满足 前 述 优 化 问题 中 限制 条 件 的 和 矩阵 B 被 称 为 置换 矩阵。 这 是 因为 限制 条 件 保 证 和 矩阵 每 行 
每 列 均 至 多 有 一 项 为 1]。 因 此 ， 和 矩阵 B 与 置换 向 量 vEV 一 一 对 应 ， 满 足 对 于 u=; 有 唯一 
的 7 使 得 吾 ;,, 王 1。 

由 于 组 合 限 制 B;,; E {0，1}) 的 存在 ， 前 述 优化 问题 仍然 不 是 一 个 线性 规划 问题 。 然 而 
事实 上 ， 这 个 限制 是 多 余 的 如 果 忽 略 该 组 合 限制 而 直接 求解 优化 问题 ， 我 们 仍然 能 保 
证 存在 最 优 解 满足 该 组 合 限制 。 之 后 将 给 出 正规 的 结论 。 

& (A,B) = >A;jBi; o BA, RAT. 9) 是 一 个 使 得 B 为 置换 矩阵 的 优化 问题 。 

矩阵 BER RAKE RM LE, WMR B 的 所 有 元 素 非 负 ， 且 B 的 每 行 每 列 的 和 均 为 
1。 因 此 忽略 B; E10，1}) 的 限制 来 求解 式 (17.9) 即 为 如 下 问题 : 

argmin(A,B) s.t. B 是 双 随 机 人 矩阵 (17. 10) 
BER" 
下 述 论断 说 明 每 个 双 随 机 和 矩阵 都 是 置换 矩阵 的 凸 组 合 。 

论断 17. 3(Birkhoff 1946, Von Neumann 1953) RY’ ?RMPAERH EAR RPS 
换 和 矩阵 集合 的 廿 和 包 。 

在 该 论断 的 基础 上 ， 易 得 如 下 引 理 : 

引 理 17.4 存在 式 (17. 10) 的 最 优 解 ， 它 也 是 式 (17.9) 的 最 优 解 。 


证 明 令 B 为 式 (17.10) 的 解 。 那 么 根据 论断 17.3， A B= 27YiC; ， 其 中 每 个 C; 都 
是 置换 矩阵 ， 每 个 x; 二 0 且 满足 Dy 一 1 。 既 然 所 有 的 C; 都 是 双 随 机 矩阵， 显然 对 所 有 i 
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都 有 (A，B) 二 (A，C;)。 我 们 断言 存在 某 个 i 使 得 (A，B) 二 (A，C;)。 该 断言 必定 成 立 ， 
AM, HEN i RALA, BSA, C), RITKE 

(A,B) = (Ay DTIC;) = D7:(A,C:) Sis 2,7.(A,B) = (A,B) 
上 式 矛盾 。 因 此 存在 某 个 置换 矩阵 C;， 满 足 (A，B) 二 (A，C;)。 但 是 ， 因 为 对 其 他 的 置 
HEE CHAA, BSA, C), MATR UEA: CG 是 式 (17. 9) 和 式 (17. 10) 的 最 


优 解 。 S 
17.5 二 分 排序 以 及 多 变量 性 能 测量 
在 之 前 的 章节 我 们 已 经 描述 了 排序 问题 ， 用 癌 量 yE 了 来 表示 成 员 x ，…，x; 的 顺 


F. WR y 中 的 所 有 成 员 都 是 不 同 的 ， 那 么 了 就 是 一 个 全 序 。 可 是 ， 如 果 y 中 的 两 个 成 员 
的 值 是 相同 的 ，y; 二 yy; (对 于 i 关 让 ， 那么 y 就 只 是 一 个 部 分 的 序 。 在 这 种 情况 下， 我 们 说 
x; 和 xi Ey 上 是 平等 关系 的 。 极 端 情况 下 ， 设 y€E{ 土 1)”"， 意 味 着 每 一 个 x; 或 者 相关 或 者 
不 相关 。 这 种 情况 经 常 被 称 作 “二 分 排序 ”。 例 如， 在 前 面 提 到 的 欺诈 检测 中 ， 每 一 个 交 
易 都 被 标记 为 欺诈 性 (y; arr ==). 

这 样 看 来 ， 通 过 学 习 一 个 二 分 类 器 ， 将 其 应 用 在 每 一 个 成 员 上 ， 并 将 正 值 排序 在 前 ， 
我 们 可 ni ierre Kn 可 是 ， 这 种 排序 策略 采用 的 是 二 分 类 的 方法 ， 而 二 分 类 
的 优化 目标 往往 是 与 排序 目标 不 同 的 0 一 1 损失， 所 以 效果 并 不 好 。 A lle 我 
们 再 次 考虑 欺诈 检测 问题 。 通 常情 况 下 ， 大 多 数 交 易 都 是 良性 的 (99%)。 因 此 ， 一 个 二 分 
类 器 如 果 将 所 有 的 交易 都 预测 为 良性 ， 那 么 得 到 的 0 一 1 误差 也 仅仅 只 有 0.1%. a 
JER) WAS. (BATFE RM a PA SIC A. TES A FOO 1 损 
失 对 于 排序 问题 的 不 准确 性 。 我 们 需要 考虑 一 种 在 全 体 实 例 上 更 准确 有 效 的 测量 方法 。 例 
如 ， 在 先前 的 部 分 中 我 们 已 经 定义 了 NDCG 损失 ， 它 更 注重 排序 前 列 实例 的 准确 性 。 在 
本 节 ， 我 们 将 介绍 对 于 二 分 排序 问题 更 准确 的 一 些 损失 函 数 。 

正如 前 面 章节 提 到 的 ， 假 设 我 们 得 到 一 个 实例 序列 x= (x1 ，…，x,;)， 并 且 预 测 一 个 


排序 向 量 y R"。 反 馈 向 量 是 yE ( 土 1)"。 我 们 定义 一 个 依赖 于 y My IREE OER H. 


To 这 个 阔 值 就 可 以 将 向 量 y $645 99 HE Csign O, 一 0)，…，sign(y 一 0))E({( 士 1)"。 通 
常情 况 下 ，9 的 值 一 般 设 为 0。 可 是 ， 正 如 所 看 见 的 那样 FET A 0 的 时 候 需 要 考虑 
一 些 额 外 的 限制 。 

接 下 来 定义 的 损失 函数 取决 于 以 下 四 个 参数 : 


真 阳 性 :a = |{i:y, =+1 A sign(y; 一 0) =+1}| 
假 阳性 :b= 二 | {i:y; =—1 A sign(y; 一 0) = 十 1}| 
假 了 明 性 :c = | {i:y; = 十 1 A sign(y; 一 0) =—1}| 
真 阴性 :d = | {isy; = 一 1 A sign(y; 一 0) = 一 1}| (17. 11) 


项 测 矢量 的 召回 率 (又 叫 敏感 率 ) 是 真 阳性 了 “捕获 ”的 比值 ， 即 于- 。 准 确 率 是 指 所 
有 正 样本 中 预测 的 正确 样本 与 正 样本 的 比值 ， 即 44。 特异 率 是 指 预测 器 “捕获 ”的 真 阴 


性 的 比值 ， 即 4;。 


注意 到 当 我 们 减少 09 时， 召回 却 会 增加 ( 当 0== 一 ceo 时， 达到 值 1) 。 另 一 方面 ， 当 减少 
9 时 准确 率 和 特异 率 通常 会 降低 。 因 此 ， 在 准确 率 和 召回 率 之 间 需 要 做 一 个 权衡 ， 而 我 们 
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可 以 通过 改变 8 的 取 值 进行 控制 。 接 下 来 定义 的 损失 函数 运用 不 同 技巧 来 结合 准确 率 和 如 
回 率 。 

。 平均 敏感 率 和 特异 率 ; 这 种 测量 方法 平均 了 敏感 率 和 特异 率 ， 即 亏 (-4- 十 J 和 5)。 

iaaa 我 们 令 9=0， 相 应 的 损失 


和 
REAO, D= (7 +9755) 





o Fi -得 分 : Fi 得 分 方法 是 准确 率 和 召回 率 的 调和 平均 ， -y 448 


汶 确 率 “ 召回 率 
率 和 准确 率 同 时 取 1 时 得 到 它 的 最 大 值 ( 取 1)， 当 召回 率 和 准确 率 有 任意 一 个 取 0 
(即便 另外 一 个 取 1) 时 得 到 它 的 最 小 值 ( 取 0)。F 得 分 还 可 以 利用 参数 a，b,， cc 写 


fe: Fiz 72, WIR, SRS 9 一 0， 得 到 的 损失 函数 是 A(y'，y) 一 1 一 i。 


Fe -得 分 : F; 得 分 方法 类 似 F; 得 分 方法 ， 只 是 在 召 回 率 项 增加 了 F 的 权重 ， 即 
ee: o O D> \ 二 二 (| 一 Ja = HA = 

= 1 o E EAT U BSE F; AFE jatte 同样 ， 我 们 令 0 0, 
准确 率 “ 召回 率 


得 到 的 损失 函数 是 A(y ，y) 一 1 一 Fp。 

k 处 召回 率 : 我 们 测量 当 预 测 中 至 多 包含 个 正 样 本 时 的 召回 率 。 这 意味 着 ， 需 要 

设置 9 的 取 值 使 其 满足 a 十 5<k&。 这 样 做 是 很 便捷 的 ， 例 如 在 欺诈 检测 系统 中 ， 银 

行 职员 仅 需 处 理 很 少 的 有 嫌疑 的 交易 。 

o k 处 准确 率 : 我 们 测量 当 预 测 中 至 少 包 含 个 正 样本 时 的 准确 率 ， 这 意味 着 ， 需 要 
设置 9 的 取 值 使 其 满足 a 十 6 二 k。 

前 面 介绍 的 方法 通 稼 被 称 作 多 变量 性 能 测量 。 注 意 到 这 些 方法 是 与 均衡 0 一 1 损失 极 


度 不 同 的 ， 即 在 前 面 符号 的 表示 中 等 于 一 -4 二。 在 前 面 所 述 的 欺诈 检测 例子 中 ， 当 
99.9% 的 实例 都 被 标记 为 负 样本 ， 那 么 预测 所 有 实例 都 为 负 样 本 的 0 一 1 损失 仅仅 0.1%, 
相反 ， 这 样 的 预测 的 召回 率 是 0， 由 此 可 得 F 得 分 也 是 0， 故 相应 的 损失 函数 将 会 是 1 。 
二 分 排序 线性 预测 器 


我 们 接 下 来 介绍 如 何 针 对 二 分 排序 训练 线性 预测 器 。 如 前 面 章 节 所 述 ， 一 个 线性 预测 
需 对 于 排序 问题 定义 为 : 


hua (x) 一 ((z，X (tw xX,)) 
相应 的 损失 函数 是 之 前 介绍 的 多 变量 性 能 测量 的 一 种 。 损 失 函 数 通过 它 引 导 的 二 值 向 量 取 
HF y =h, (x), WE 
b(y’) = (sign(y; — 0) sign(y —@)) E {+1}" (17. 12) 

如 前 面 章节 ， 为 了 使 算法 高 效 ， 我 们 得 到 在 A 上 的 一 个 凸 损失 替代 函数 。 这 与 之 前 对 于 
NDCG 排序 损失 的 泛 化 合 页 损失 相 类 似 。 

我 们 应 该 首先 注意 到 对 于 所 有 之 前 定义 的 0 值 ， 存 在 VC{ 十 1)}”",， 使 得 b(y ) 可 以 被 改 
写 为 


b(y’) = ara (17. 13) 
s i=] 
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如 果 我 们 选择 VC{ 士 1 ，, 在 0%=0 情况 下 上 式 显然 正确 。 而 k 处 准确 率 及 k 处 召回 率 
这 两 种 方法 并 不 是 将 0 设 为 0。 对 于 & 处 准确 率 ， 我 们 可 以 将 集合 V 设 为 V>:， 其 中 V> 
是 指 所 有 在 { 土 1)" 向 量 中 元 素 为 1 的 个 数 至 少 是 & 的 向 量 集合 。 对 于 & 处 召回 率 ,， 我 们 
可 以 类 似 地 将 集合 V 设 为 V=:。 详 见 练习 17.5. 
一 日 我 们 用 等 式 (17. 13) 定 义 了 b， 可 以 很 容易 得 到 一 个 如 下 的 凸 替代 损失 。 假 设 ye 
V， 我 们 有 
ACh, (x) y) = Alha) SY 


< A(b(h, KN sy) + >) (6; (Ay Ce) — 9) (wxi) 
i=] 


< maxlACv,y) + D7 ui — y) (wx) (17, 14) 
s i=1 


等 式 的 右边 是 一 个 关于 w 的 凸 替代 损失 。 

现在 我 们 可 以 运用 17. 2. 5 节 描 述 的 SGD 准则 来 解决 这 个 学 习 问 题 。 主 要 的 计算 瓶颈 
在 于 计算 损失 函数 的 次 梯度 ， 它 等 价 于 寻找 v 使 得 等 式 (17.14) 达到 最 大 值 ( 见 
论断 14. 6). 

接 下 来 ， 我 们 将 要 介绍 对 于 任何 一 个 可 以 被 写 为 等 式 (17. 11) 所 给 出 参数 a, b,c, d 
的 函数 的 性 能 测量 ， 并 且 对 于 集合 V 包含 { 土 1}” 中 的 所 有 成 员 ( 参 数 a,5 满足 一 些 限制 )， 
如 何 有 效 的 寻找 这 个 最 大 值 。 例 如 ， 对 于 “k 处 召回 率 “， 集 合 V 就 是 满足 a 十 bk 的 所 
有 向 量 。 

方法 如 下 所 示 ， 对 于 所 有 的 a,，bELrj, + 

Vib = {ws | {isw: = 1 A = | 人 |{iswi = 1 A yi =— 1} |= 

任 一 向 量 v EV 都 会 落 和 对 于 特定 的 a， bE [rj] 的 集合 了 ,中 。 更 进一步 ， 如 果 对 于 某 些 a， 
bE[r], VasNV 非 空 ， 那么 7 站 V=》.;。 因 此 ， 我 们 可 以 搜索 每 一 个 与 V 有 非 空 交集 


的 7..,， 然 后 取 最 优 值 。 其 中 我 们 应 当 注 意 到 一 旦 搜索 7 内 的 元 素 ，A 的 值 是 固定 的 ， 所 
以 我 们 只 需 最 大 化 表达 式 : 


max >) vi(w,xi) 


vey, i=1 
假设 实例 已 经 被 排 好 顺序 ， 那 么 (w，xi) 宇 … 宇 (w，x,)。 很 容易 验证 我 们 想 将 具有 最 小 
FER i 的 元 素 v; 标记 为 正 样本 。 这 样 做 ， 在 a, b 的 限制 下 ， 这 意味 着 对 于 那些 a 排 在 前 
列 的 正 样本 和 对 于 那些 5 排 在 前 列 的 负 样 本 置 v; 二 1。 算 法 如 下 : 


解 方程 (17. 14) 
输入 : 
ks 
假设 : 
人 是 由 a，b，c，d 表示 的 函数 


对 于 函数 f，V 包含 所 有 满足 fla, 5b) 二 1 的 全 体 向 量 
初始 化 : 

P=|{i: pl) le N= | ii »=—1}| 

Cw, Xs s (wy X,)), 一 一 5 
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HE EAR pa Sp > Sp, 
Ar iy, ty ip 是 正 样 本 的 下 标 ( 已 排序 ) 
Aji ty jy 是 负 样 本 的 下 标 (已 排序 ) 
对 于 a 二 0， ls nee, P 
c=P—a 
F b=0, 1, =, NX fla, b)=1l 
d=N— b 
Fla, bi 页 d#HA 
LEU, y St Y= =y, Ms FS 中 剩 下 的 元 素 为 一 ] 


Aa = A+ X vpi 
i=] 


如 果 aza” 


a =a, v' =v 


输出 v* 





17.6 小 结 

现实 中 的 许多 监督 学 习 问 题 可 以 被 看 作 学 习 一 个 对 多 分 类 预测 需 。 我 们 通过 介绍 从 多 
分 类 到 二 分 类 的 约 简 开 始 本 章 的 学 习 。 然 后 描述 并 分 析 了 多 分 类 学 习 的 线性 预测 需 大 家 
族 。 我 们 展示 了 这 个 预测 器 家 族 如 何 使 用 ， 即 使 类 的 数目 极其 巨大 ， 只 要 我 们 有 一 个 关于 
问题 的 足够 大 的 结构 。 最 后 ， 我 们 描述 了 排序 问题 。 在 29 章 我 们 将 会 更 详细 地 研究 多 分 
类 学 习 的 样本 复杂 度 。 


17.7 文献 评注 

一 对 多 和 一 对 一 约 简 方法 已 经 在 纠 错 输出 编码 (ECOC) (Dietterich & Bakiri 1995, 
Allwein, Schapire & Singer 2000) 的 框架 下 被 统一 。 还 有 其 他 约 简 类 型 ， 比 如 基于 分 类 树 
的 分 类 (参考 ， 例 如 Beygelzimer, Langford & Ravikumar(2007))。 约 简 技 术 的 局 限 性 已 
经 被 研究 过 (Daniely 等 2011，Daniely 等 2012)。 也 可 以 见 29 章 中 分 析 多 分 类 学 习 中 的 样 
本 复杂 度 。 

多 分 类 学 习 的 线性 预测 器 的 直接 方法 已 经 被 研究 过 (Vapnik 1998, Weston & Watkins 
1999, Crammer &- Singer 2001) 。 特 别 地 ， 多 向 量 构建 是 由 Crammer 和 Singer (2001) 提 
出 的 。 

Collins(2000) 已 经 展示 了 对 于 结构 化 输出 问题 如 何 应 用 感知 器 算法 。 也 可 以 参考 Col- 
lins(2002)。 一 个 相关 的 方法 是 对 于 条 件 随 机 场 的 有 区 别 的 学 习 ， 见 Lafferty 等 (2001) 。 
结构 化 输出 SVM 方法 已 经 被 研究 了 ， 见 文献 Weston 等 (2002)，Collins(2002)，Taskar 
等 (2003) Tsochantaridis 等 (2004) 。 

在 结构 输出 章节 中 我 们 提出 的 计算 预测 器 h(x) 的 动态 过 程 ， 类 似 于 HMMs 中 向 前 
回 后 变量 计算 的 Viterbi 过 程 (例如 Rabiner & Juang (1986))。 更 一 般 地 ， 在 结构 输出 中 解 
决 最 大 值 问 题 与 图 模型 中 推断 问题 是 极其 相关 的 ( 见 Koller & Friedman (2009a))。 

Chapelle, Le 和 Smola (2007) 提出 了 运用 NDCG 损失 学 习 排 序 函 数 的 方法 ， 这 个 思 
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想来 自 于 结构 和 输出 学 习 。 他 们 同样 发 现 定义 泛 化 合 页 损失 的 最 大 化 问题 等 价 于 指派 问题 。 
Agarwal 和 Roth(2005) 分 析 了 二 分 排序 的 样本 复杂 度 。Joachims(2005) 研 究 了 运用 多 
恋 量 性 能 测量 解决 二 分 排序 的 SVM 结构 化 输出 的 适用 性 。 


17.8 练习 


17. 1 考虑 RX[k] 中 的 样本 集 S, FEIE jv,，…，L 使 得 每 个 样本 (x，y) ES 属于 以 
u, 为 中 心 ， 半 径 r>1 的 球 中 。 同 时 假设 对 每 对 i 了 关 7， 有 上 pi 一 由 三 4r。 考 虑 将 每 
个 样本 用 常数 1 连接 在 一 起 ， 然 后 应 用 多 向 量 的 构建 方式 ， 即 ， 
党 = Om 0 Tig ynls Od ] 
= ees ER! ge 
试 证 存在 向 量 wER”*， 使 得 对 每 个 (x，y)E5S 满足 6(w，(x，y)) 二 0。 
提示 : 观察 到 对 每 个 样本 (x，y)ES， 可 以 对 某 个 上 vr 重 写 x 二 jy 十 v。 现 在 ， 
A ww 二 [wi ，…， wil, HP wi=|pis —|[pi 772]. 
17.2 多 分 类 感知 器 : 考虑 以 下 算法 : 


多 分 类 批量 感知 器 


输入 : 
一 个 训练 集 (x1，y1)，*……，(xXmn， Ym) 
一 个 类 别 敏 感 的 特征 映射 入: KVR’ 
初始 化 : w? =0, =, OER 


对 于 i=l, 2, = 
EGE i Fo yy, Lw, Plx yw”, Plx: y))) ARZA 
wY =w FPC y)— Tlx y) 
否则 
输出 w” 
试 证 如 下 定理 : 
定理 17.5 假设 存在 w` 使 得 对 所 有 1 Fo PAW yA yi» (w*, V(xXi, yD Zw" 、 
W(x, y) +1 RZ. A R=max| Fx, yxs yle PA, $PRRMEH 
FEAH Z (R| w| KERERE, 且 终 止 时 对 任何 iE€[m]， BX y= 
argmax Cw, W(x;, yi)). 
17.3 在 多 分 类 预测 的 SGD 步骤 中 ， 由 hh 的 定义 给 出 的 最 大 化 问题 ， 试 推广 17. 3 节 给 出 


的 动态 规划 步骤 来 解决 它 。 你 可 以 假设 对 某 个 函数 8 有 AO) = DOLY) 。 


17.4 证 明 式 (17. 7) 成 立 。 
17.5 证 明 式 (17. 12) 和 式 (17. 13) 中 定义 的 x 在 所 有 多 变量 性 能 测量 上 是 等 价 的 。 
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第 18 章 | 


Understanding Machine Learning; From Theory to Algorithms 


决 R 树 





决策 树 是 一 种 :> 形式 的 预测 器 ， 从 根 结 点 开始 ， 对 实例 x 的 某 一 特征 进行 测试 ， 
根据 测试 结果 将 实例 分 配 到 子 结 点 ， 直 至 达到 叶子 结 点 ， 预 测 叶子 结 点 所 属 的 类 即 实例 x 
的 标签 。 为 了 简单 起 见 ， 我 们 先 考 虑 二 分 类 情况 ， 即 7》 二 410，1}, 但 是 决策 树 也 可 以 被 应 
用 到 其 他 预测 问题 。 从 根 结 点 到 叶子 结 点 路 径 上 的 每 个 结 点 ， 其 后 继 结 点 是 输入 空间 的 一 
种 拆 分 。 通 常 ， 拆 分 是 根据 实例 x 的 某 一 特征 或 是 预先 设 定 的 拆 分 规则 。 每 个 叶子 结 点 都 
对 应 一 个 特定 的 标签 。 下 面 给 出 木瓜 一 例 ( 在 第 2 章 中 论述 ) 的 一 种 决策 树 : 





浅 绿 到 浅黄 


为 了 判断 一 个 给 定 的 木瓜 好 吃 还 是 不 好 吃 ， 决 策 树 先 测试 木瓜 的 颜色 ， 如 采 颜 色 不 在 
浅 绿 到 浅黄 的 范围 之 内 ， 决 策 树 不 用 做 其 他 测试 ， 直 接 预测 该 木瓜 是 不 好 吃 的 。 否 则 ， 决 
策 树 转 而 测试 木瓜 的 软 硬 程度 ， 如 果 用 手掌 压 木瓜 产 生 轻 微 的 变形 ， 则 决策 树 预 测 该 木瓜 
是 好 吃 的 。 否 则 ， 决 策 树 预 测 该 木瓜 是 不 好 吃 的。 前 面 所 述 的 例子 凸显 了 决策 树 的 一 个 主 
要 的 优点 一 一 分 类 顺 的 结果 很 容易 理解 和 解释 。 


18.1 采样 复杂 度 

一 种 流行 的 决策 树 中 间 结 点 拆 分 规则 是 对 单个 特征 二 值 化 。 我 们 向 左 子 结 点 还 是 右 子 
结 点 移动 基于 lf < HP iC Ld ARENAS, OEREN. XA. RITTA 
FERN a TEESE Bil 25 [nA = RY 拆 分 成 一 系列 单元 ， 每 个 叶子 结 点 对 应 一 个 单元 。 由 此 
得 出 结论 ， 一 棵 有 上 个 叶子 的 树 能 够 打 散 一 个 包含 & 个 实例 的 集合 。 因 此 ， 如 果 我 们 允许 
决策 树 是 任意 大 小 的 ， 将 得 到 一 个 VC 维 无 穷 大 的 假设 类 。 这 种 方法 很 容易 造成 过 拟 合 。 

为 了 防止 过 拟 合 ， 我 们 可 以 利用 第 7 章 所 述 的 最 小 描述 长 度 准则 (MDL) ， 学 习 一 棵 决 
策 树 ， 使 之 一 方面 能 很 好 地 拟 合 数据 ， 男 一 方面 树 的 规模 不 会 太 大 。 

为 了 简单 起 见 ， 我 们 假定 二 {0，1)*“。 换 言 之 ， 每 个 实例 是 一 个 d 维 的 向 量 。 这 样 ， 
将 特征 二 值 化 相当 于 对 一 些 i€ Ld RAD, -形式 的 拆 分 规则 。 比 如 ， 我 们 在 构建 “木瓜 
决策 树 ” 之 前 假定 木瓜 用 二 维 位 向 量 X*E (0, 1}? KR, r 表示 木瓜 的 颜色 是 否 在 浅 绿 到 
浅黄 的 范围 之 内 ，zxs 表示 用 手掌 压 木 瓜 时 是 否 会 产生 轻微 的 变形 。 用 这 种 表示 方法 ， 结 
A “HE” 可 以 用 1[; <1 RRE, 结 点 “ 软 硬 程度 ?” 可 以 用 li -来 表示 。 虽 然 做 了 极 
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大 的 简化 ， 但 是 接 下 来 我 们 给 出 的 算法 和 分 析 可 以 扩展 到 更 一 般 的 形式 。 

基于 前 面 的 简化 假设 ， 假 设 类 变 成 了 有 限 假 设 类 ， 但 是 数量 依然 很 大 。 任 何 从 
{0，1})* 到 {0，1} 的 分 类 问题 都 可 以 用 有 24 个 叶子 结 点 深度 为 a 十 1 的 决策 树 表示 出 来 。 
因此 ， 其 VC 维 是 24 ， 也 就 是 说 PAC 学 习 一 个 假设 类 需要 的 样本 数量 随 2 增长 。 除 非 4 
很 小 ， 否 则 需要 大 量 的 训练 样本 。 

为 了 解决 这 个 问题 ， 我 们 需要 利用 第 7 章 所 述 的 MDL 方案 。 根 据 潜在 的 先 验 知 识 ， 
相 比 于 规模 大 的 决策 树 ， 我 们 更 倾向 于 规模 小 的 决策 树 。 为 了 形式 化 地 表示 这 种 和 直觉， 我 
们 需要 先 给 决策 树 定义 一 种 描述 语言 ， 这 种 描述 语言 是 无 前 级 的 ， 并 且 对 于 规模 小 的 决策 
树 其 描述 长 度 要 短 。 这 里 给 出 一 种 可 能 的 方法 : 有 7 个 结 点 的 树 用 n 十 1 块 组 成 ， 每 一 块 
用 log (4d 十 3) 位 来 表示 。 前 n 块 以 深度 优先 的 方式 编码 树 的 结 点 ， 最 后 一 块 标记 编码 的 结 
束 。 每 一 块 表 明 当 前 的 结 点 是 否 为 : 

® SAP TIED, -形式 的 中 间 绪 点 

o 值 为 1 的 叶子 结 点 

o 值 为 0 的 叶子 结 点 

o 代码 终止 

总 共有 d+3 种 选项 ， 因 次 需要 用 logz (4d 十 3) 位 来 表示 每 一 块 。 

假定 每 个 中 间 结 点 有 两 个 子 结 点 > ， 不 难 证 明 这 是 树 的 一 种 无 前 缀 编码 ， 有 7” 个 结 点 
树 的 描述 长 度 是 (n 十 1)logs (4d 十 3)。 

通过 定理 7.7， 我 们 可 以 得 出 ， 样 本 数量 为 m， 对 于 任意 的 n 和 任意 的 有 7 个 结 点 的 
决策 树 有 EN， 下 式 以 不 小 于 1 一 6 的 概率 成 立 : 


beth) H Lehi + [n+ Diog (d E3) + ogC2/0) (18.1) 


这 个 上 界 存 在 一 个 折 中 : 一 方面 我 们 希望 更 大 规模 更 复杂 的 决策 树 减 小 训练 误差 Ls (h)， 
但 是 相应 的 的 值 会 变 大 。 男 一 方面 ， 规 模 小 的 决策 树 对 应 的 值 较 小 ， 但 是 训 练 误差 
Ls(h) 会 变 大 。 我 们 希望 能 找到 一 个 决策 树 训练 误差 Ls (4) 较 小 ， 同 时 结 点 数 n 也 不 至 于 
太 大 。 这 样 才 能 获得 较 低 的 真实 风险 Loh). 


18.2 决策 树 算 法 

公式 (18. 1) 中 Lp (h) 的 界 给 出 了 决策 树 的 一 种 学 习 规 则 一 一 使 公式 (18. 1) 右 边 最 小 的 
树 即 为 所 求 的 决策 树 。 可 惜 ， 已 经 证 明 解 该 问题 是 计算 难 的 S 。 因 此 ， 实 际 的 决策 树 学 习 
算法 是 基于 启发 式 思 想 比 如 贪 焚 方法， 逐步 构建 决策 树 ， 在 每 个 结 点 采用 局 部 最 优 策略 。 
这 种 算法 不 能 保证 返回 全 局 最 优 的 决策 树 ， 但 是 在 实践 中 取得 不 错 效果 。 

决策 树 生 长 过 程 的 总 体 框架 如 下 。 一 棵 树 从 单 叶子 结 点 ( 根 结 点 ) 开 始 ， 将 实例 数 最 多 
的 类 作为 该 叶子 结 点 的 类 标记 。 我 们 现在 做 一 系列 的 迭代 ， 每 次 迭代 ， 测 试 拆 分 一 个 叶子 
结 点 的 效果 。 我 们 定义 一 些 “增益 ”指标 来 量化 由 此 拆 分 带 来 的 提升 效果 。 然 后 ， 在 所 有 
可 能 的 拆 分 中 ， 或 者 选择 最 大 化 增益 的 拆 分 方式 或 者 选择 不 拆 分 。 

接 下 来 ， 我 们 提供 一 种 可 能 的 实现 方式 。 介 绍 一 种 叫 ID3(Jterative Dichotomizer 3) 的 
决策 树 算法 。 在 描述 算法 时 ， 我 们 假定 实例 是 二 值 特征 ， 即 二 {0，1)*， 因 此 所 有 的 拆 分 


SC it alas 因为 如 果 决 策 结 点 只 有 一 个 子 结 点 ， 可 以 用 子 结 点 代替 它 ， 而 不 会 影响 决策 
的 预测 。 
O 更 确切 地 ， 如 果 NP 取 P， 那 么 没有 算法 可 以 在 n，d，m 的 多 项 式 时 间 内 求解 方程 (18. 1) ， 
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规则 都 是 11, -uj 形式， 其 中 iE [4]。 我 们 会 在 18. 2. 3 节 讨论 实 值 特征 的 情况 。 

”算法 是 一 个 递归 调用 的 方法 ， 最 开始 调用 ID3CS，[4]) 并 返回 一 棵 决策 树 。 在 后 面 的 
伪 代 码 中 ， 我 们 会 调用 程序 cain(S，i)， 该 程序 输入 训练 集 S 和 索引 i， 评 估 根 据 第 i 个 
特征 拆 分 之 后 的 增益 。 我 们 会 在 18. 2. 1 节 介绍 几 种 增益 测量 方法 。 


ID3(S, A) 
输入 : 训练 数据 S， 特 征 子 集 AC[ dd] 
MRS 中 的 所 有 样本 都 标号 为 1， 返回 一 个 叶子 1 
MRS 中 的 所 有 样本 都 标号 为 0， 返回 一 个 叶子 0 
如 果 和 人 AA 二名， 返回 一 个 叶子 节点 ， 将 S 中 标号 最 多 的 类 作为 该 节点 的 类 标号 
否则 : 
令 j=argmaxjeaGain(S, i) 
MR S 中 的 所 有 样本 标号 相同 
返回 叶子 节点 ， 其 值 为 S 中 标号 最 多 的 类 
否则 
Ti A ID3 (x, wWES:2,;=1}, A\ fj) wee 
T: A ID3BC(x, WES:27;=0}, A\ {7})) 返 回 的 树 
返回 树 : 





18.2.1 增益 测量 的 实现 方式 

不 同 的 算法 采用 不 同 的 增益 测量 方式 Gain(S, i)。 在 这 里 ， 我 们 给 出 三 种 方式 。 我 
们 用 符号 PsLF Jj 来 表示 在 S$ 上 采用 均匀 分 布 事件 发 生 的 概率 。 

训练 误差 : 增益 的 最 简单 定义 是 训练 误差 的 减少 量 。 设 C(a) 二 min{a，1 一 a}。 根 据 
第 i 个 特征 拆 分 之 前 的 训练 误差 是 C(Ps[y 二 1])， 因 为 我 们 采用 投票 数 多 的 标签 。 同 样 ， 
第 i 个 特征 拆 分 之 后 的 错误 率 是 

PLz， = 1JCCPLy = {ie = + Plaz; = 0ICPLy = [| a = 0 

因此 ， 我 们 可 以 定义 增益 为 两 者 的 差 ， 即 

BL CCBLy =i1) 

~ Pla: = LICBLy = 1a, = 1) HRE = 0C@Ly = 1] 2; = 0) 

信息 增益 : 另 一 种 流行 的 增益 测量 方法 是 信息 增益 ， 被 Quinlan 用 在 ID3 和 C4. 5 算法 

中 。 信 息 增益 是 结 点 拆 分 前 后 粹 的 差 值 ， 实 现 方式 是 将 前 面 表达 式 中 的 函数 C HERO RH 
Cla) =— alog(a) — (1—a)log(1 — a) 

基尼 系数 : 另 一 种 增益 的 定义 是 基尼 系数 ， 由 Breiman, Friedman, Olshen 和 Stone 

(1984) 在 CART 算法 中 使 用 ， 
Cla) = 2a(1—a) 
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信息 增益 和 基尼 系数 都 是 平滑 的 凹 函数 ， 对 训练 误差 有 上 界 。 这 些 特性 在 特定 情形 下 
有 很 大 的 优点 (参考 Kearn&.Mansour(1996)). 


18.2.2 Bix 

前 面 所 述 的 ID3 算法 存在 很 大 的 问题 : 返回 的 树 规模 很 大 。 这 样 的 树 可 能 经 验 风 险 很 低 ， 
但 是 它们 的 真实 风险 往往 比较 高 一 一 不 论 是 根据 理论 分 析 还 是 在 实际 操作 中 。 一 种 解决 方法 是 
限制 ID3 算法 的 迭代 次 数 ， 使 树 的 结 点 有 上 限 。 男 一 种 常用 的 方法 是 在 树 构 建 完成 之 后 进行 前 
Bis 希望 使 树 的 规模 变 小 ， 同 时 能 保持 近似 的 经 验 误差 。 理 论 上 讲 ， 根 据 公式 (18. 1) 给 出 的 界 ， 
如 果 将 n 变 小 同时 不 怎么 增加 Ls(h) 的 值 ， 我 们 有 可 能 得 到 一 棵 真实 风险 较 小 的 决策 树 。 

通常 ， 剪 枝 是 一 个 自 下 而 上 的 过 程 。 根 据 一 些 界 或 者 Ls(h) 的 信 计 值 ， 可 以 将 结 点 由 
其 子 树 或 单个 叶子 结 点 替代 。 下 面 给 出 了 剪 校 的 一 个 常用 模板 伪 代 码 。 





一 般 剪 枝 过 程 
输入 : 
BH f(T，m) (样本 规模 为 m， 决 策 树 广 义 误差 的 界 或 估计 )， 树 本 
对 于 树 工 叶子 节点 到 根 节 点 上 任意 的 节点 jj 
找到 使 F(T ，7a) 最 小 的 开 ， 开 是 下 列 情况 的 一 种 : 
将 节点 了 替换 为 标号 为 叶子 节点 1 后 的 树 


将 节点 了 替换 为 标号 为 叶子 节点 0 后 的 树 
将 节点 了 替换 为 其 左 子 树 后 的 树 
将 节点 了 替换 为 其 右 子 树 后 的 树 
当前 树 
= 





18.2.3 ” 实 值 特征 基于 阅 值 的 拆 分 规则 

在 之 前 的 章节 ， 我 们 假定 特征 是 二 进 制 且 拆 分 规则 是 lt -0 形式 时 ， 如 何 生成 一 棵 决 
策 树 。 现 在 ， 我 们 将 前 面 的 结论 拓展 到 特征 是 实数 ， 拆 分 规则 是 lt -< 的 情况 。 这 种 拆 分 
规则 可 以 看 做 是 决策 桩 ， 我 们 已 经 在 第 10 章 介绍 过 。 

基本 的 思路 是 将 问题 简化 为 二 值 特征 的 情况 。 设 x ，…，x,, 是 训练 集中 的 实例 。 对 
于 每 一 个 实 值 特征 i， 将 实例 按 第 i 个 特征 从 小 到 大 排序 z1., 过 … 达 zx;。 定 义 一 系列 阐 什 
Qi，"…，0n+t1,i， 其 中 Oji E (zii， Zt1,i)( 在 这 里 我 们 约定 zo0,; 二 一 2O，zm+1,; 二 50)。 最 后 ， 
对 于 每 个 i 和 j 我 们 定义 二 值 特征 lt <y, ,]。 在 构建 完 这 些 二 值 特征 之 后 ， 就 可 以 运行 前 一 
方 所 述 的 ID3 程序 了 。 很 容易 验证 ， 对 于 任意 一 个 原始 特征 是 实 值 ， 采 用 基于 阔 值 的 拆 分 
规则 构建 得 到 的 决策 树 ， 我 们 能 找到 一 个 相同 训练 误差 相同 结 点 数目 的 基于 二 值 特征 构建 
得 到 的 决策 树 。 

如 来 实 值 特征 维 数 是 4， 样 本 数目 是 mx， 构建 得 到 的 二 值 特征 数目 是 dm 个 。 计 算 每 
个 特征 的 增益 需要 OCdm® ) 次 运算 。 如 果 我 们 采用 一 种 更 聪明 的 方法 ， 可 以 将 运行 时 间 降 
低 到 OC(dmlog(m))。 这 种 思路 类 似 于 10. 1. 1 节 里 实现 决策 桩 ERM 时 采用 的 方法 。 


18.3 ”随机 森林 
前 面 已 经 提 及 ， 由 任意 规模 的 决策 树 构成 的 类 ， 其 VC 维 是 无 限 的 。 因 此 我 们 要 限制 
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决策 树 的 规模 。 另 一 种 降低 过 拟 合 风险 的 方法 是 将 树 进行 集成 。 接 下 来 我 们 将 介绍 由 
Breiman(2001) 提 出 的 随机 森林 方法 。 

一 个 随机 森林 是 由 一 系列 决策 树 构 成 的 分 类 器 ， 每 棵 树 都 是 将 算法 A 作用 到 训练 集 S 
和 随机 变量 9 上 ， 其 中 9 是 从 某 一 独立 同 分 布 采样 得 到 的 。 随 机 森林 的 预测 值 是 由 每 个 树 
进行 多 数 投票 得 到 的 。 

为 了 明确 一 个 特定 的 随机 森林 ， 我 们 需要 定义 算法 A 和 作用 于 0 上 的 分 布 。 有 许多 方法 
可 以 实现 ， 在 这 里 我 们 介绍 一 种 情形 。 我 们 由 以 下 方式 生成 6。 首先 ， 从 训练 集 S 随机 采样 
一 个 子 样本 ; 即 在 训练 集 S 上 采用 均匀 分 布 采样 到 一 个 样本 数目 为 m 的 新 的 训练 集 S 。 第 
二 ， 我 们 构建 一 个 序列 h, L, s FA L 是 [dj 的 一 个 大 小 为 & 的 子 集 。 所 有 这 些 变 量 组 
成 向 量 0。 然后 使 用 算法 A 根据 训练 集 S' 生 成 一 棵 决策 树 ( 例 如 使 用 ID3 算法 )， 在 拆 分 时 ， 
要 求 在 子 集 中 选择 使 增益 最 大 的 特征 。 直 观 上 讲 ， 如 果 上 很 小 ， 这 种 限制 会 防止 过 拟 合 。 


18.4 Va 
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树 。 一 个 有 上 & 个 叶子 结 点 的 树 其 VC 维 是 &， 我 们 给 出 了 用 MDL 来 学 习 一 棵 决策 树 的 范 
例 。 决 策 树 最 主要 的 问题 是 该 问题 是 计算 难 的 ， 因 此 我 们 给 出 了 几 种 局 发 式 训练 方法 。 


18.5 文献 评注 


Quinlan(1986) 推 导 了 许多 决策 树 学 习 算 法 (比如 ID3 和 C4.5)。CART 算法 是 由 
Breiman, Friedman, Olshen 和 Stone 提出 (1984)。 随 机 森林 是 由 Breiman(2001) 提 出 。 
读者 可 以 参考 Hastie、Tibshirani& Friedman(2001) 和 Rokach(2007) 做 进一步 阅读 。 

训练 决策 树 的 计算 难度 证 明 由 Hyafil 和 Rivest(1976) 给 出 。 


18.6 练习 


18.1 1) 证 明 : 任意 的 二 分 类 器 及 :10，1)* 卢 {0，1}) 可 以 由 至 多 4 十 1 层 的 决策 树 实 现 ， 
决策 树 的 中 间 节 点 iE 10，…，d}) 可 以 表示 为 (x; 二 0?) 形 式 。 
2) 推导 如 下 绪论 : 定义 域 为 {0，1}* 的 决策 树 假设 类 ， 其 VC 维 为 24， 
18.2 (ID3 的 次 优 性 ) 
考虑 如 下 训练 集 ， 其 中 X= 二 {0, 1}, V={0, 1}: 
Ce Ty 
((1,0,0),1) 
(C15156)0) 
((0,0,1),0) 
假定 用 该 训练 集 来 训练 一 深度 为 2 的 决策 树 ( 即 ， 对 每 个 输入 ， 在 判别 标号 之 前 ， 
我 们 可 以 问 形 如 (kz 一 0?) 的 两 个 问题 ) 。 
1) 假定 运行 ID3 算法 得 到 一 决策 树 ， 其 深度 至 多 为 2( 即 根据 算法 选择 根 节点 及 其 
子 翘 点 ， 根 据 每 个 子 树 的 多 数 标 签 终 止 算法 和 选择 叶子 节点 ， 而 不 是 继续 递归 
循环 ) 。 假 定 使 用 入 函数 (因此 我 们 测量 信息 增益 ) 来 评估 每 个 特征 的 质量 ， 如 果 
两 个 特征 得 到 相同 的 信息 增益 ， 随 机 挑选 其 中 一 个 。 证 明 得 到 的 决策 树 其 训练 
误差 至 少 为 1/4。 
2) 寻找 一 深度 为 2 的 决策 树 ， 使 其 训练 误差 为 0。 
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最 过 邻 





最 近邻 算法 是 最 简单 的 机 器 学 习 算 法 。 其 思想 是 先 存储 训练 集 ， 然 后 以 训练 集中 新 实 
例 最 近邻 的 标签 来 预测 新 实例 标签 。 这 种 方法 的 合理 性 基于 一 种 假设 ， 这 种 假设 认为 用 于 
描述 域 点 的 特征 与 其 标签 相关 ， 和 邻近 的 点 之 间 可 能 具有 相同 的 标签 。 更 进一步 说 ， 在 茶 些 
情况 下 ， 即 使 训练 集 庞大 ， 完 成 一 个 最 近邻 的 寻找 会 非常 快 (例如 ， 当 训练 集 是 所 有 网 页 ， 
以 链接 作为 距离 )。 

注意 到 ， 相 比 我 们 目前 讨论 过 的 算法 范例 (ERM、SRM、MDL 或 RLM 都 是 由 一 些 假 
设 类 决定 的 )， 最 近邻 方法 无 需 在 指定 的 函数 类 里 搜索 预测 器 ， 就 可 以 找 出 任何 测试 点 
的 标签 。 

在 本 章 ， 我 们 描述 关于 分 类 和 回归 问题 的 最 近邻 方法 。 我 们 就 简单 的 二 分 问题 分 析 其 
性 能 ， 并 讨论 执行 这 些 方法 的 效率 。 


19.1 k 近邻 法 


本 章 ， 假 设 域 上 给 定 一 个 度量 函数 o。 也 就 是 说 ，p:XXX 一 民 是 一 个 返回 任意 两 点 距 
离 的 函数 。 例 如 ， 如 果 #-> 了 ,那么 p 可 以 是 欧 氏 距离 


2 (x;—2';)? 
A> S=(x,5 ys ts (Snes Ym ES 个 训练 样本 序 列 。 对 每 一 个 xECX, A mlx), 
za(x) 是 按 样 本 与 x 的 距离 对 {1，…，mm} 的 重 排 序列 。 也 就 是 说 ， 对 所 有 的 <m, A 
CX» me CX) EDRs (RY) 
对 于 一 个 数 &，A&A-NN 准则 对 二 分 问题 的 定义 如 下 : 





o(x,x) = |x—x']= 


输入 : 一 个 训练 样本 集 S=, y), 


输出 : 对 每 个 点 KCL 
返回 (co :ik}) 中 的 投票 最 多 的 标 





4 k=1 时 ， 我 们 有 1-NN 准则 : 
hig 0} = We 4%) 
KF 1-NN 准则 的 几何 说 明 见 图 19. 1. 
对 于 回归 问题 ， 即 7》 二 恨 ， 你 可 以 定义 预测 为 个 近邻 的 平均 目标 值 。 也 就 是 ，hs(x) = 


Eye) e EA, HENE A: p:(YXy)y， 关 于 $ 的 大 NN 准则 是 ， 


hs(x) = PC CX, cw 9 Vx, (x) } oe (Xn cx) 9 Vr, (x) )) (19.1) 
容易 验证 ， 我 们 可 以 通过 最 多 的 投票 (对 于 分 类 ) 或 平均 目标 值 (对 于 回归 ) 来 预测 ， 按 式 
(19. 1) 选 择 一 个 合适 的 %。 这 种 推广 可 以 引申 到 其 他 准则 ， 比 如 ， 若 2 王 及 ， 我 们 可 以 根据 
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样本 与 测试 点 x 的 距离 ， 采 用 一 个 目标 值 的 加 权 平 均 作 为 预测 


$ i e o Ba 
itt) = >) er 
ma 2 p(s Tn) 





图 19. 1] 1-NN 准则 的 决策 边界 说 明 。 画 出 的 点 是 样本 点 ， 任 何 新 实例 点 的 预测 标签 与 其 所 属 的 单元 中 
心 样本 点 的 标签 一 样 。 这 些 单元 被 称 为 Voronoi Tessellation 空间 


19.2 分 析 


由 于 最 近邻 准则 是 如 此 自然 的 学 习 方 法 ， 其 泛 化 性 已 有 大 量 研 究 。 此 前 大 部 分 研究 的 
结论 是 渐进 相 容 性 结果 ， 分 析 了 当 样 本 大 小 m 趋 于 无 穷 时 最 近邻 准则 的 性 能 和 依赖 于 潜在 
分 布 的 收敛 速度 。 正 如 我 们 在 7.4 小 节 里 讨论 的 一 样 ， 仅 有 这 类 的 分 析 还 是 不 够 的 。 我 们 
想 要 从 有 限 训练 样本 里 学 习 并 理解 泛 化 性 ， 这 种 泛 化 性 是 关于 有 限 训练 集 大 小 和 清晰 的 数 
据 分 布 先 验 的 函数 。 因 此 我 们 提供 了 一 个 关于 1-NN 准则 的 有 限 样本 分 析 ， 说 明 误 差 是 随 
m 递减 的 函数 且 依赖 于 分 布 的 性 质 。 我 们 也 将 解释 ， 这 种 分 析 能 推广 到 任意 & 时 的 A-NN 
准则 。 特 别 地 ， 分 析 指 定 了 达到 真实 误差 2Lp (h* ) te 时 所 需要 的 样本 数 ， 其 中 hh" ZEIT 
叶 斯 最 优 假设 ,假设 这 种 标记 准则 是 “表现 恨 好 的 ”( 我 们 将 在 后 面 定义 )。 


19. 2. 1 1-NN 准则 的 泛 化 界 


我 们 现在 分 析 0 一 1 损失 下 二 分 问题 的 1-NN 准则 的 真实 误差 ， 也 就 是 说 ，J 王 4{0，1) 
Bech, (x; 3) ) =La 假设 在 整个 分 析 中 二 三 L0， 8 Ho 是 欧 氏 距离 。 
我 们 先 介 绍 一 些 概念 。 令 D 是 关于 X》 的 一 个 分 布 。 用 Dx 表示 关于 的 一 个 边缘 分 
布 ，7: 民 一 恨 表 示 关于 标签 的 条 件 概率 ， 即 
Ke) = Ply =1|x] 
回顾 贝 叶 斯 最 优 准 则 ( 即 ， 所 有 函数 中 使 得 Lo (h) 最 小 的 假设 ): 
h* (x) = liosa 
我 们 假设 条 件 概率 函数 了 对 任意 oO 都 满足 c - 利 普 硕 茨 性 : 即 对 所 有 的 x, x’ EX, 
| fx) — A) | 过 clx 一 x | 。 换 言 之 ， 这 种 假设 意味 着 ， 如 果 两 个 向 量 彼此 相近 ， 那 么 它们 的 
标签 更 可 能 一 致 。 
下 面 的 引 理 将 条 件 概率 函数 的 利 普 希 茨 性 应 用 到 1-NN 准则 的 真实 误差 上 界 分 析 中 ， 
其 中 这 个 误差 是 由 每 个 测试 样 例 与 其 在 近邻 点 之 间 的 距离 所 确定 的 函数 。 


引 理 19.1 令 二 XL[0,，1]*, V={0, 1}, HDEXXVELH ADAH, £iADALA 
件 概 率 函 数 刀 是 一 个 c - 利 普 希 茨 性 函数 。 A S=(x, y1)， an | G Ym) 是 独立 同 分 布 样 
本 ， 并 令 hs 是 其 对 应 的 1-NN (RGR, Ah 表示 关于 的 贝 叶 斯 最 优 准则 。 则 有 


E [Loh] < 2lpth*)+e E [lx—x..w|] 
s—p” S-P .X~D 
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证 明 由 于 lp (hs) 二 Brywy-plris w RIFE Lo (hs)j 表 示 采 样 到 一 个 训练 集 S 
和 一 个 额外 样本 (x，y) 的 概率 ， 其 中 x (x) 与 yy 不同。 换言之 , 我们 可 以 根据 D, 先 采样 到 
m 个 无 标签 样本 S;, 王 (，…，xa)， 以 及 一 个 额外 的 无 标签 样本 x 一 D,， 然 后 找到 x 在 
Sı 中 最 近邻 x1(x)， 最 后 采样 y~ QO Al ye, co ~ Gr (xX))。 由 此 得 


S D ~Dy x~D, yD ~n (x)) 
= E | P [y y]| (19. 2) 
3 


对 于 任意 两 个 域 点 x，x“ ， 我 们 接 下 来 确定 了 ,xw,y-_xx)[y 关 y j 的 上 界 : 
Ly Æ y J= D0 nx)) + = yx )) nx) 
= (900) = HDT Nr NN — HR)) 
Xl ys Dy 
= 29(x) 1 — x) H (yx) — nx )) (C2) — 1) 
FI | 260) —1| <1 和 7 是 ec - 利 普 希 茨 性 的 假设 ， 我 们 可 得 最 大 概率 ; 
ee [yE E 2y(x) C1 — n(x)) +cllx —x’| 
将 上 式 与 式 (19. 2) 相 加 ， 我 们 推断 出 
EL Lp (hs) J = EL 2y(x) (1 =e n(xX)) | TE EL |x 一 Xe ll ] 
最 终 ， 贝 叶 斯 最 优 分 类 器 误差 是 
Lpth* ) = ELmin{ (x) .1 — 9(x)}] > El yx) 1 — n(x))] 
结合 上 面 两 个 不 等 式 ， 定 理 得 证 。 本 
接 下 来 ， 对 于 一 个 随机 样本 ， 确 定 其 与 S 中 最 近邻 之 间距 离 期 望 的 界 。 我 们 首先 需要 
下 面 的 概率 引 理 。 这 个 引 理 确定 了 子 集 不 被 随机 采样 的 概率 权重 ， 这 种 概率 权重 是 样本 大 
小 的 一 个 函数 。 
引 理 19.2 SC, +, C 是 某 个 域 补 上 子 集 的 集合 。 根 据 尤 的 某 个 概率 分 布 D， 令 S 
是 采样 得 到 一 组 m 个 独立 同 分 布 样本 的 序列 。 则 有 
B | > wclj<+ 


S~D” -iC NS=Ø 
WEAR 从 期 望 的 线性 性 质 出 发 ， 我 们 可 改写 : 
E| FP PC] | = t? PLC, ] Bl Bre, ns= 四 ] 


”Cr 站 SS= 到 
然后 ， 对 每 一 :我 们 有 
Bl Bre, ns= 四 ] PLC; N S= 8]=a-PLG)"<e™ 
结合 前 面 两 等 式 ， 我 们 得 
加 | PLC] =< >) ey max PLC, Je “oY 
2) i=] i 


= i:G. S= 


y~ kX) y ~Mx ) 


最 终 ， 计 算得 maxae ”之 一， 定理 得 证 。 


用 前 面 的 引 理 ， 我 们 可 以 容易 地 陈述 和 证 明 这 一 小 节 的 主要 结论 一 1-NN 学 习 准 则 
的 期 望 误差 上 界 。 
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引 理 19.3 4x=[0, 1, V={0, 1}, HDEXXVEN—-AAA, PAAT ALA 
件 概 率 函 数 九 是 c AA KR BA. M hs RRRAES~D" 时 ， 应 用 1-NN 准则 得 到 的 输出 
假设 。 则 有 


a © 
EB [Loh] < 2L ph") + de vdm ™ 
TE r 


WEAR 对 某 个 个， 固定 ce 二 1/T, Sr=T’, C, e, C 是 长 为 e 的 框 ， 构 成 对 集合 的 
TA m: BI, 对 每 个 (ai， a welt], 存在 一 个 形式 为 {x: Vis a Elite — 1 
aj/TI}SNRGC. 4d=2, T=5 时 ， 对 应 a 二 (2，4) 的 集合 说 明 图 如 下 : 


l 


l 
对 同一 个 框 里 的 每 对 x, x’, BTA x—x'|<Jde. BW, |x—x'|<Jd. 。 因 此 ， 
Ele- lIe U Glvatrl U clkval 
aS 8 i:C, NS=2 iC VS=2 
并 结合 引 理 19.2 和 P| U CII, 我们 得 到 
iG SAS 


ECs tyo lI </d(4 +e) 
由 于 框 的 数目 是 + 二 (1/e)*， 我 们 有 








Jisa 
E(x — x, lE E +e] 
结合 前 面 的 引 理 19. 1 我 们 得 到 
d_—d 
E[Lp hs)] <2Lp(h*) +e ya (2 +e) 
S m e 


最 后 ， 设置 e=2m MTU IER 


2de =d 2d dim d/(d+1) 
aan = erry 十 27m Wa) 二 m bdr) (l/e-+ 2) < 4m D 


证 明 完 成 。 a 
这 个 定理 表明 ， 如 果 我 们 先 固定 生成 数据 的 分 布 ， 让 m FTES., N) 1-NN 准则 的 误 
磊 收 合 于 两 倍 贝 叶 斯 误差 。 这 个 分 析 可 以 推广 到 较 大 值 的 &， 并 说 明 &-NN 准则 的 期 望 误 
差 收敛 于 (1 十 V8/A) 倍 贝 叶 斯 分 类 器 误差 。 这 一 结论 以 定理 19. 5 给 出 ， 其 证 明 留 作 练习 。 


19.2.2 “ 维 数 灾难 ” 


定理 19. 3 中 给 出 的 上 界 随 c(7 的 利 普 希 芯 系数 ) 和 域 集 的 欧 氏 维 数 4 增长 。 实 际 上 易 
得 ， 定 理 19. 3 中 最 后 一 项 小 于 e 的 必要 条 件 是 m 宇 (4c Vd /e) 。 即 ， 训 练 集 的 大 小 应 该 
随 看 维 数 的 增加 明 指 数 递增 。 以 下 的 定理 说 明 ， 这 不 仅 是 一 个 构造 的 上 界 ， 对 某 些 分 布 而 
言 ， 样 本 的 数量 确实 是 NN 准则 学 习 所 必需 的 。 


定理 19.4 对 任意 >l 和 每 个 学 习 准 则 二 ， 存 在 一 个 分 布 [0，1]4X{0，1}， 使 得 





J(X) 是 <- 利 普 希 英 的 ， 且 分 布 的 贝 叶 斯 误差 是 0， 但 对 样本 数 ms<(c 十 1) /2， 准 则 工 的 
真实 误差 大 于 1/4. 

证 明 ”固定 任意 的 值 c 和 4。 4 G! LO, 1) 上 距离 1/c 的 点 构成 的 网 格 。 即 ， 网 格 
上 的 每 个 点 形式 为 (a1/c，…，az/c)， 其 中 a; 属于 (0，…，<c 一 1，c}。 注 意 到 ， 由 于 网 格 
上 任意 不 同 两 点 至 少 距离 1/c， 任 意 函 数 y: GE>LO, 1 ec Fl APR. Ak. G 
中 的 c -=- 利 普 希 茨 函 数 集合 包含 该 域 上 所 有 二 值 函 数 。 因 此 我 们 可 以 运用 “没有 免费 的 午 
餐 ” 定 理 ( 定 理 5. 1) ， 得 到 对 学 习 假 设 类 所 需 样本 大 小 的 下 界 。 在 网 格 上 的 点 数 为 (c 十 
1), WẸ mm<(c 十 1)4/2， 定 理 5. 1 给 出 了 我 们 所 要 确定 的 下 界 。 E 

这 种 对 维 数 的 指数 依赖 性 被 称 为 “ 维 数 灾难 ”。 我 们 看 到 ， 如 果 样 本 数 小 于 ACHD), 
1-NN 准则 可 能 会 失败 。 因 此 ， 尽 管 1-NN 准则 没有 限制 在 一 个 指定 的 假设 集 里 ， 但 它 仍然 
依赖 于 先 验 知识 一 一 学 习 的 成 功 仅 依赖 于 维 数 和 潜在 分 布 的 利 普 希 次 常数 7 不 会 太 大 。 


19.3 ”效率 实施 * 

最 近邻 法 是 一 种 记忆 学 习 类 的 准则 。 这 种 方法 要 求 存 储 整 个 训练 数据 集 ， 在 测试 时 为 
了 找到 最 近邻 ， 需 要 浏览 所 有 样本 。 应 用 NN 准则 的 时 间 因 此 是 8(dm)。 这 导致 测试 计 
算 的 开销 很 大 。 

当 4d 很 小 ， 计 算 几 何 领 域 中 的 一 些 结论 已 经 提出 ， 结 合 相 关 数 据 结 构 能 够 确保 应 用 
NN 准则 能 在 oC&2 logem) ) 时 间 内 完成 。 然 而 ， 数 据 结构 要 求 的 空间 为 m2 ， 这 对 较 大 
的 4 值 是 不 现实 的 。 

为 了 克服 这 一 问题 ， 可 考虑 一 个 近似 搜索 来 改善 搜索 方法 。 形 式 上 ,，r -近似 搜索 程序 
确保 检索 到 的 点 距离 测试 样本 至 多 是 最 近邻 样本 距离 测试 样本 的 > 倍 。 三 种 流行 的 关于 
NN 的 近似 算法 是 kd - 树 、 球 树 和 局 部 敏感 哈 希 (LSH)。 具 体 可 以 参考 Shakhnarovich, 
Darrell & Indyk(2006 ) 。 


19.4 ”小 结 


k-NN 准则 是 一 种 简单 的 学 习 算法 ， 这 种 学 习 算法 依赖 于 假设 “看 起 来 相似 的 事物 一 
定 是 相似 的 "。 我 们 利用 条 件 概率 函数 的 利 普 希 区 性 阐述 了 这 一 (直觉 ) 判 断 。 我 们 已 经 表 
明 ， 对 于 一 个 足够 大 的 训练 集 ，1-NN 的 风险 上 界 是 两 倍 贝 叶 斯 最 优 准 则 风险 。 我 们 也 推 
寻 了 一 个 下 界 ， 说 明了 “ 维 数 灾难 ”一 一 所 需要 的 样本 大 小 最 终 随 维 数 的 增加 呈 指 数 增 
长 。 因 此 ， 实 际 中 NN 通 稼 在 维 数 约 简 预 处 理 步 又 之 后 执行 。 我 们 后 面 将 在 23 章 讨论 维 
效 约 简 技 术 。 


19.5 文献 评注 


Cover 和 Hart(1967) 给 出 了 1-NN 的 最 早 分 析 ， 显 示 了 在 一 定 情 况 下 其 风险 收敛 于 两 
音 贝 叶 斯 最 优 误 差 。Stone(1977) 给 出 了 引 理 ，Devroye 和 Gy6rfi(1985) 证 明了 &-NN 准则 
是 渐进 收敛 的 (关于 所 有 从 权 ' 到 {0，1} 的 函数 的 假设 类 )。 一 个 较 全 面 的 分 析 在 Devroye 
等 (1996) 的 书 中 给 出 。 这 里 ， 我 们 给 出 一 个 有 限 样 本 集 ， 确 保 明 确 地 强调 了 关于 分 布 的 先 
验 假设 。 关 于 渐进 收敛 性 结论 的 讨论 见 小 节 7.4。 最 后 ，Gottlieb，Kontorovich 和 Krauth- 
gamer(2010) 推 导 了 另 一 个 关于 NN 的 有 限 样 本 界 ， 这 个 界 与 VC 界 类 似 。 


19.6 练习 | 
在 练习 中 ， 我 们 将 证 明 以 下 关于 ANN 准则 的 定理 . 
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定理 19.5 4xH=[0, 1, 站 一 {0，1}， 且 D 是 人 XY 上 的 一 个 分 布 ， 在 这 个 分 布 上 条 
件 概 率 函 数 刀 是 c - 利 普 希 英 函 数 。 并 令 hs 表示 采样 S~D" 时 ， 应 用 -NN 准则 的 输出 假 
设 ， 其 中 上 宇 10。 用 hh* 表 示 关 于 的 贝 叶 斯 最 优 准则 。 则 有 


19; 1 


19: 2 


ELLp (hs) |< (1 十 全 Jeph" YL (Bic fe +L S, 


证 明了 以 下 引 理 。 
引 理 19.6 令 CI，…，C, 是 某 个 域 集 上 子 集 的 集合 。 令 S 是 根据 关于 守 的 某 
个 概率 分 布 DD 采 样 得 到 的 一 组 m 个 独立 同 分 布 样本 序列 。 则 有 
E | PLC] | <2 
m 


S-Dp" mi |G NS| <k 


提示 : 
è 证 明 


gq wad] = $ cIa n sica 


@ 固定 某 个 i 并 假设 k& 二 PLC; jm/2， 利 用 切 比 雪夫 界 说 明 
PL (G MN Sl< kS PL | G NSZ PLC; ]m/2] < e CIs 


© 利用 不 等 式 maxsae <M EM i RIA 


PLCIPLIC. N S1<4] < PECI < B 
® 证 明 可 借助 以 下 事实 : 对 k 宇 PLC; jm/2 的 情况 ， 我 们 显然 有 
PICIPLIC N Sl<e]<pPic]<* 
我 们 标记 y~p 作为 “y 是 一 个 期 望 为 的 伯 努 利 随机 变量 ”。 证 明 以 下 引 理 ， 
引 理 19.7 Sk>10, ŽA Z, +, Z 是 满足 P[2; 二 1] 二 p; 的 独立 伯 努 利 随 


k 
WEE. 表示 一 二 了 Dp; 且 p -二 D2 证 明 ， 
i i=] 
BE Ply Flysiad <(1+,/2) P [yz] 
Z1 12, yp = as k l y~p Ept] 


提示 : 
不 失 一 般 性 假设 p<1/2。 则 ， P,~pl yl ys |=p。 A y= irys o 
@ 证 明 
E RE cat =, P ie > 1/2 ](1— 2p) 
mee A 


Zoet Zy y~p 
@ 利用 切 比 雪夫 界 ( 引 理 B. 3) 证 明 : 
PLp’ >1/2]< eG) 
其 中 
h(a) = (1+a)log(1+a)—a@ 
® 读者 可 以 通过 以 下 不 等 式 (无 需 证 明 ) 完 成 证 明 : 对 每 个 PE[O, 1/2] fo >10. 


(] 一 2 pe tty “loa 2p) = Es 


19. 3 


19. 4 
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HERD p, p' EL0，1] 和 yy E€(0, 1}. WEH: 
Pryda Pl y+ Iw | 
根据 以 下 步骤 完成 定理 的 证 明 : 
o 同 定 理 19. 3 的 证 明 ， 固 定 某 个 es>0 并 令 CI |, C 是 长 为 e 的 框 ， 构 成 对 集合 
的 覆盖 。 对 同一 个 框 里 的 每 对 x，x ， 我们 有 | x—x'|<J/de, AM, xx |< 
2 Vd。 证明: 


BILpChs)]< D PIC] 


i: |C,NS| <k 
十 max P| hs(x) A y| Yj E Lk], lx — xr w I<evd| (19. 3) 


o 利用 引 理 19. 6 确定 第 一 个 加 数 的 界 。 

o 为 确定 第 二 个 加 数 的 界 ， 我 们 固定 S|, 和 x 使 得 x 在 S|, 中 的 所 有 个 近邻 与 x 
的 最 远 距 离 不 超过 e Vd 。 不 失 一 般 性 ， 假 设 ANN fbx, oo, xm. HAR p; 二 n(x;) 
HA p= + >)p.. ZME 19. 3 证 明 ， 

， B „Eol hs œ FINS g -A PLhs(x) #y]+ | p— w| 

不 失 一 般 性 地 假设 p<1/2. AHI 19. 7 证 明 

„P, Psw #9] < (14/8) P a] 

e 证 明 
P Hit # y] = p = min{p,1— p} < min{y(x), 1 — (x) } + | p — n(x) | 

© 结合 前 面 的 结论 可 得 到 等 式 (19. 3) 中 第 二 个 加 数 的 界 为 

(+AV 总 Jp ) 十 3cev 
@ 运用 r 二 (2/e)* 可 得 : 
BLLp (hs) ]< (14 3 Loa’ ) + 3ce Vd + /ek 
设 e 二 2m 1240 并 运用 
Bem VD Yd + Em VED < (Ge Va + hm Var 
LE , 
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人 工 神经 网 络 是 一 种 计算 模型 ， 它 以 大 脑 的 神经 网 络 结构 为 原型 。 在 大 脑 的 简化 模型 
中 ， 它 包含 了 大 量 的 基本 计算 器 件 ( 神 经 元 )， 以 复杂 的 通信 网 络 形式 彼此 互联 ， 通 过 它 
们 ， 大 脑 能 够 执行 高 度 复杂 的 计算 。 人 工 神 经 网 络 是 规则 的 计算 结构 ， 它 模仿 大 脑 的 计算 
框架 建 模 。 

神经 网 络 学 习 的 提出 始 于 20 世纪 中 期 ， 由 它 产生 的 有 效 学 习 框 架 ， 现 在 被 证 明 在 某 
些 问题 上 具有 领先 的 性 能 。 

神经 网 络 可 以 被 描述 为 有 向 图 ， 其 中 节点 是 神经 元 ， 边 是 它们 之 间 的 连接 。 每 个 神经 
元 的 输入 是 与 其 输入 边 相 连 的 神经 元 输出 的 加 权 和 。 我 们 关注 前 馈 网 络 ， 其 中 不 包含 环 。 

在 机 器 学 习 的 背景 下 ， 我 们 定义 含有 神经 网 络 预测 的 假设 类 ， 其 中 所 有 的 假设 类 共享 
网 络 结构 ， 但 边 上 的 权重 不 同 。 我 们 将 在 20.3 节 中 说 明 ， 每 个 超过 ”个 变量 的 能 够 在 
T(n) 时 间 内 执行 的 预测 都 能 表示 成 复杂 度 为 OCT (n)”) 的 神经 网 络 预 测 ， 其 中 网 络 的 大 小 
是 内 部 的 节点 数 。 因 此 多 项 式 规 模 的 神经 网 络 假设 类 足够 完成 所 有 实际 的 学 习 任 务 。 更 进 
一 步 ， 在 20. 4 节 我 们 将 看 到 该 类 学 习 问 题 的 样本 复杂 度 相 对 于 网 络 大 小 也 是 有 界 的 。 因 
此 ， 这 似乎 是 我 们 最 希望 适应 的 学 习 框 架 ， 因 为 它 在 所 有 可 以 高 效 执行 的 假设 类 中 ， 具 有 
多 项 式 的 样本 复杂 度 和 最 小 的 近似 误差 。 

需要 提醒 的 是 ， 训 练 神经 网 络 假设 类 的 计算 代价 是 相当 大 的 。 这 将 在 20.5 节 中 给 出 
形式 化 说 明 。 一 个 广泛 应 用 的 神经 网 络 启发 式 方法 基于 14 章 中 介绍 的 SGD 框架 。 我 们 已 
经 证 明 在 凸 损失 少数 的 条 件 下 ，SGD 是 有 效 的 方法 。 在 神经 网 络 中 ， 损 失 函 数 是 高 度 非 
凸 的 。 然 而 ， 我 们 仍 可 以 采用 SGD 算法 并 希望 它 能 够 找到 可 行 解 ( 就 像 许 多 实际 学 习 任 务 
中 所 表现 的 )。 在 20. 6 节 中 ， 我们 说 明 如 何在 神经 网 络 上 应 用 SGD 方法 。 特 别 地 ， 最 复 
杂 的 操作 是 计算 损失 了 涌 数 关于 网 络 参数 的 梯度 。 我 们 给 出 有 效 计 算 梯 度 的 反 向 传播 算法 。 


20.1 前 馈 神 经 网 络 

神经 网 络 隐 含 的 思路 是 许多 神经 元 能 够 通过 信息 互联 共同 执行 复杂 计算 。 将 神经 网 络 
结构 表达 成 图 形 是 常见 的 ,其 中 节点 是 神经 元 ， 图 中 的 每 个 (直接 相连 的 ) 边 连接 一 些 神经 
元 的 输出 和 男 外 神经 元 的 输入 。 我 们 将 把 精力 集中 在 前 馈 神 经 网 络 结构 上 上， 这些 图 中 不 
含 环 。 

前 馈 神 经 网 络 被 描述 为 有 向 无 环 图 G 二 (VV，E)， 同 时 边 上 具有 权重 函数 w:E-> 民 。 图 
中 的 节点 是 神经 元 。 每 个 单独 的 神经 元 被 建 模 为 简单 标量 函数 c: 了 -> 了 R。 我 们 关注 三 个 可 
能 的 o PRIA: 符号 函数 o(a)—=sign(a), WHE X ola) =1),~0) 和 sigmoid pi ao (a) = 
1/(1+exp(—a)) CE AEE PRE a hit). RIK o 称 为 神经 元 的 激活 函数 。 图 中 的 
每 个 边 连接 一 些 神经 元 的 输出 和 男 一 些 神经 元 的 输入 。 神 经 元 的 输入 是 所 有 与 其 相连 的 神 
经 元 输出 的 加 权 和 ， 权 重 由 w 给 定 。 

为 了 简化 神经 网 络 计算 的 描述 ， 我 们 进一步 假设 网 络 是 由 层 (layer) 组 织 的 。 即 网 络 的 
万 点 集合 能 够 分 解 为 独立 非 空 的 单元 子 集 V 王 局 上 ooV,。 因 此 瓦 中 的 每 个 边 都 连接 着 V, 与 
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Vi 中 的 节点 (iE[TJ])。 最 底层 Vo 叫做 输入 层 ， 它 包含 十 1 个 神经 元 ， 其 中 是 输入 空 
间 的 维度 。 对 于 每 个 i€E[n]，Vo 层 中 神经 元 i 的 输出 为 x;。Vo 层 中 最 后 一 个 神经 元 为 常 
数 神经 元 ， 它 总 是 输出 1。 我 们 用 ideas t 层 中 第 i 个 神经 元 ， 用 o1.;(x) 表 示 ;的 输出 ， 
其 中 x 为 网 络 的 输入 向 量 。 因 此 对 于 iC Lnj 有 opi (X) =x: 且 对 于 i 三 n 十 ] 有 o,;(x) =1. 
我 们 现在 开始 逐 层 计算 。 假 设 已 经 计算 出 t 层 的 神经 元 输出 ， 然 后 ， 就 可 以 计算 出 第 t 十 1 
层 神 经 元 的 输出 。 固定 Ur+1,j EV+ o 网 络 输入 回 量 为 x 时 ， 令 aij (X) RZN Ur+1,7 的 输入 ， 
那么 
ani, j (xX) = a n 


rilv pyy EE 
H 
amı (X) = olam, (X)) 
BD, vns AMA V 中 与 w+ 相连 的 神经 元 输出 的 加 权 和 ， 其 中 权重 由 中 给 出 ， 而 
2 的 输出 是 激活 函数 作用 在 输入 上 的 结果 。 
Vio =e Vi MAR RMA. WIJE Vr 称 为 输出 层 。 在 简单 的 预测 问题 中 ， 输 出 层 只 
包含 一 个 神经 元 ， 它 的 输出 为 整个 网 络 的 输出 。 
是 网 络 中 的 层 数 (不 包含 Vo)， 或 者 称 为 网 络 的 深度 。 网 络 的 体积 (size) 为 |V|。 网 
络 的 宽度 (width) 是 max' 1V,| 。 图 中 的 前 馈 神经 网 络 深度 为 2， 体积 为 10， 宽 度 为 5。 注 
意 到 隐藏 层 中 的 神经 元 没有 输入 边 。 这 个 神经 元 的 输出 恒 为 c(0) 。 
输入 层 隐藏 层 输出 层 
(Vo) (VY) (V2) 


AE Ta i i 
ee) pee 输出 
A | 


20.2 神经 网 络 学 习 


一 旦 通过 (V，E，o，w) 指 定 了 一 个 神经 网 络 ， 我们 将 得 到 函数 内 ev:RImI- -> 
RIM! 。 该 集合 中 的 任何 函数 都 可 以 作为 学 习 的 假设 类 。 通 常 ， 我 们 通过 设 定 图 (V，E) 和 激 


活 限 数 o 来 定义 神经 网 络 预测 的 假设 类 ， 并 使 假设 类 为 所 有 形 如 hs 的 函数 ， 其 中 
w:E>R, 三 元 组 V， 玉 ，o) 称 为 网 络 的 结构 。 我 们 认为 假设 类 为 
Hy es = (hv,g,ow:wE 到 R ARR ST} (20, 19 


即 指定 假设 类 的 参数 是 网 络 边 上 的 权重 。 

我 们 现在 可 以 研究 假设 类 的 逼近 误差 、 估 计 误 差 和 优化 误差 。 在 20. 3 节 中 ， 根 据 图 
的 体积 ,我 们 通过 分 析 Xy.s,, 中 所 采用 的 函数 类 型 研究 其 台 近 误差 。 在 20. 4 节 中 ， 我 们 通 
过 分 析 VC 维 研究 Ky,s,, 在 二 分 类 问题 ( 即 Vr=1, o 为 符号 函数 ) 中 的 估计 误差 。 最 后 在 
20. 5 市 中 ， 我 们 说 明 即 便 图 很 小 ，Xy.s,, 类 学 习 也 具有 计算 复杂 性 。 在 20. 6 节 中 我 们 给 出 
最 常用 的 启 EAH ,训练 方法 。 
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20.3 神经 网 络 的 表达 力 

本 节 中 我 们 研究 神经 网 络 的 表达 力 ， 即 什么 类 型 的 函数 能 够 应 用 在 神经 网 络 里 。 更 具 
体 地 ， 我 们 将 给 定 一 些 结构 V，E，oc， 并 研究 Xv.s., 中 能 够 实现 什么 样 的 体积 为 V 的 函数 
假设 。 

我 们 从 Xs ,能 够 实现 何 种 布尔 函数 ( 即 函 数 映射 从 { 土 1)" 到 { 士 1)) 开 始 讨论 。 注 意 到 
对 于 任何 以 5 个 比特 存储 实数 的 计算 机 ， 当 计算 函数 fs RR, 我们 实际 上 是 计算 
g:{ 土 1}” 一 { 土 1)。 因 此 ， 研 究 Hy,s.www 能 够 实现 何 种 布尔 函数 能 够 让 我 们 知道 计算 机 能 
够 完成 5 比特 实数 的 何 种 函数 。 

我 们 从 一 个 简单 的 论断 开始 : 在 不 约束 网 络 体积 时 ， 深 度 为 2 的 神经 网 络 能 够 实现 任 
何 布尔 函数 。 

论断 20. 1 对 任意 的 n， 存 在 深度 为 2 的 图 (V，EE)， 使 得 Hv. 包含 所 有 的 {十 1)" 
到 {十 1} 函数 映射 。 


证 明 ”我们 构建 一 个 图 ， 其 中 |Vo | =n+1, [Vi | =2"4+1, |V:|=1. $ E HRZ 
的 所 有 可 能 的 边 。 现 在 , 令 fE EDARRAK. RI] T k WE REE L yE T A 
ELM f. Yu; “ee, Uy Fy {= 1}" 中 所 有 使 f 输出 为 l 的 回 量 。 观察 到 对 于 每 个 1 和 
xE{t1}", WẸ xAu; A(x, u)<Sn—2, WR x 二 wu; JPA <x, ud=n, VOSS 
g;(x)=sign(<x, uj)—nt+1lA1l4AM4x=u,. HMRI Vo AV, 之 间 的 权重 
使 对 于 每 个 i€E [LA]， 神 经 元 vi.; 实 现 函 数 g;(x)。 下 面 ， 我 们 注意 到 f(x) 是 对 g; (x) 的 析 
取 ， 因 此 可 以 写成 

f(x) = sign( >) g:(x) +2—-1) 
证 毕 。 四 
之 前 的 论断 表明 神经 网 络 能 够 实现 任意 的 布尔 图 数 。 但 是 这 是 一 个 很 弱 的 性 质 ， 因 为 


网 络 的 体积 将 指数 爆炸 式 增 长 。 在 论断 20. 1 的 证 明 的 构造 中 ， 隐 藏 层 的 节点 数 呈 指数 爆 
炸 。 这 不 是 我 们 证 明 制 造 的 ， 下 面 的 定理 给 出 说 明 。 


定理 20.2 对 于 任意 的 n, 令 s(n) 为 最 小 整数 ,满足 存在 一 个 图 (V, E)， 有 |V|= 
s(n), AMRIH sm 包含 了 所 有 {0，1)” BO, 1} BH, MA s(n) 是 关于 nn 的 指数 。 
o Æ sigmoid 函数 时 1Hv ,也 存在 类 似 的 结论 。 


WEAR ”假定 对 于 (V，E) 我 们 有 Xv.s.sw 包 含 了 所 有 {0，1)" 到 {0，1}) 的 函数 。 可 以 推论 它 
能 打 散 {0， Lo 集合 中 的 mo 个 回 量 ， ICH, sa 的 VC 维 是 B'a 男 一 方面 ， Hy. Esim HY: 
VC HELA OC| E| log(| E| )) 委 CVD) 为 界 ， 这 将 在 下 一 节 说 明 。 这 意味 着 |V| 三 Q(2”"3)， 这 
证 明了 以 符合 函数 为 激活 函数 的 网 络 情形 ，sigmoid 函数 情形 也 是 类 似 的 。 a 

评注 ”对 Xvy.s, 中 任何 o 推导 类 似 的 理论 是 可 行 的 ， 只 要 我 们 约束 权重 以 使 每 个 以 公 
共和 常数 为 界 的 多 比特 权重 都 能 表达 。 我 们 也 可 以 考虑 不 同 神经 元 使 用 不 同 激活 函数 的 假设 
类 ， 只 要 激活 函数 的 数目 是 有 限 的 。 

多 项 式 体 积 的 网 络 能 够 表示 什么 样 的 函数 ? 之 前 的 论断 告诉 我 们 它 不 能 表示 所 有 的 布 
尔 晒 数 。 积 极 的 一 面 是 ， 接 下 来 我 们 将 看 到 所 有 能 在 OCT (rn) ) 时 间 内 计算 的 布尔 函数 都 能 
由 一 个 体积 为 OCT (n)?) 的 网 络 表示 。 
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定理 20.3 邻 T:N>N 且 对 于 每 个 n,， SFr 为 一 个 函数 集 ， 它 能 使 用 图 灵机 在 Tln) 
时 间 内 执行 。 那 么 ， 存 在 常数 b，cE 妥 | ， 对 每 个 n， 有 体积 最 大 为 cT(n) 十 6 的 图 (V,， 
EE,) 使 Hy E sign CL OF no 


这 个 定理 的 证 明 依赖 程序 时 间 复 杂 度 与 电路 复杂 度 ( 见 Sipser 2006) 的 关系 。 简 单 讲 ， 
布尔 电路 是 由 单个 神经 元 组 成 的 网 络 ， 实 现 输入 的 合 取 、 析 取 和 否定 。 电 路 复杂 度 衡量 完 
成 所 需 函 数 计算 的 布尔 电路 体积 。 时 间 复 杂 度 和 电路 复杂 度 的 关系 可 以 从 下 面 的 内 容 直 观 
看 到 。 我 们 认为 计算 机 程序 的 每 一 步 执行 都 是 对 内 存 的 一 次 简 音 操作。 因此， 网 络 中 各 层 
的 神经 元 将 反应 计算 机 相应 时 间 的 内 存 状态 。 而 向 网 络 下 一 层 的 传导 则 包含 了 网 络 执行 的 
一 次 简单 计算 。 为 了 将 布尔 电路 与 符号 激活 函数 的 网 络 相 联系 ， 我 们 需要 证 明 使 用 符号 激 
活 函 数 能 够 完成 合 取 、 析 取 和 和 否定 运算 。 显 然 ， 我 们 能 够 使 用 符号 函数 执行 否定 运算 ， 下 
面 的 引 理 将 表明 符号 激活 函数 也 能 完成 合 取 和 析 取 。 

引 理 20. 4 假设 神经 元 v 使 用 符号 激活 函数 ， 具 有 上 上 个 输入 边 ， 与 其 连接 的 神经 元 输 
能 实现 对 其 输入 的 合 取 或 者 析 取 运算 。 

证 明 仅 注意 如 果 f:{ 土 1}*>{ 土 1} 是 合 取 函数 f(x) 二 人 :x;， 那 么 它 可 以 写成 f(x) = 
sign(1—&+ Dy) » AW. PRA f(x) 二 VV jx; 可 以 写成 f(x) = sign(k—1 >) a;) , E 


A ave lite TARAR. FEARS 20. 1 中 ， 我们 将 看 到 神经 网 络 是 通用 拟 合 器 。 即 
对 任意 给 定 的 精度 > O 和 利 普 硕 欧 项 数 太一 1，]" 一 [一 1，1]， 可 以 构建 一 个 网 络 ， 满 
足 对 于 任意 的 输入 回 量 xEL 一 1，1j"， 网 络 的 输出 在 f(x) 一 e 和 f(x) 十 e 之 间 。 但 是 ， 就 
像 布尔 函数 的 情形 一 样 ， 网 络 的 体积 也 不 能 保证 是 n 阶 多 项 式 的 。 下 面 定理 给 出 了 形式 化 
证 明 ， 它 的 证 明 是 定理 20. 2 的 推论 ， 并 留 作 练习 。 


定理 20.5 给 定 e€(0，1)， 对 于 每 个 n， 令 s(n) 为 最 小 整数 ,满足 存在 一 个 图 (V， 
EF)， 有 |V| 二 s(n)， 从 而 go 为 sigmoid 函数 的 假设 类 Je 能 精度 es 近似 每 个 1 - 利 普 希 英 
函数 f:[—1, 1J">L—-1, 1], PMA s(n) 是 关于 nn 的 指数 形式 。 


几何 直观 


下 面 我 们 给 出 一 些 函 数 f: 民 一 { 士 1} 的 几何 直观 表示 ， 并 说 明 如 何 使 用 符号 激活 函数 
的 神经 网 络 对 其 表示 。 

我 们 以 深度 为 2 的 网 络 开始 ， 即 网 络 只 有 一 个 隐藏 层 。 隐 藏 层 中 的 每 个 神经 元 都 是 半 
空间 预测 器 。 那 么 ， 输 出 层 的 单一 神经 元 对 隐藏 层 所 有 神经 元 的 二 值 输出 应 用 半空 间 预 
测 。 正 如 我 们 之 前 看 到 的 ， 半 空间 能 够 实现 合 取 函数 。 因 此 ， 这 样 的 网 络 包含 了 所 有 一 1 
个 半空 间 公 共 部 分 的 所 有 假设 ， 其 中 是 隐藏 层 中 神经 元 的 个 数 。 它 们 可 以 表示 所 有 一 1 
面 的 凸 多 面体 ， 下 面 给 出 一 个 5 个 半空 间 相 交 的 例子 。 


| 





233 


234 


178 ”第 二 部 分 从 理论 到 算法 


我 们 已 经 证 明 V: 层 中 的 神经 元 能 够 实现 指示 x 是 否 为 凸 多 面体 的 函数 。 通 过 加 入 一 
层 或 更 多 层 ， 并 使 输出 层 的 神经 元 实现 其 输入 的 析 取 ， 我 们 将 得 到 计算 联合 多 面体 的 网 
络 。 下 面 是 一 个 该 函数 的 例子 : 





20.4 ”神经 网 络 样本 复杂 度 

下 面 我 们 讨论 学 习 XWy,s,, 类 的 样本 复杂 度 。 回 顾 基 本 学 习 理 论 ， 我 们 知道 学 习 二 分 类 
假设 类 的 样本 复杂 度 依赖 于 VC 维 。 因 此 ， 我 们 关注 形 如 Xvy,s,, 的 假设 类 的 VC 维 计算 ， 其 
中 图 的 输出 层 只 包含 一 个 神经 元 。 

我 们 从 符号 激活 函数 出 发 ， 即 了 tesm。 这 一 类 的 VC 是 多 少 呢 ? 直观 上 ， 由 于 我 们 学 
习 参 数 |E| ，VC 维 应 该 由 |E| 决 定 。 确 实 如 此 ， 下 面 的 定理 说 明 的 这 一 点 。 


定理 20.6 Wy ecient VC 维 是 OC|E|log(|E|))。 


证 明 为 简化 证 明 过 程 中 的 表示 ， 我 们 记 假 设 类 为 丸 。 回 顾 6.5.1 节 中 生长 函数 
rx (MEX. AARE Emax CX: |Cl=mlHel, EPH: 是 对 函数 从 C 到 {0，1}) 的 
限制 。 我 们 自然 地 在 吗 数 集合 上 拓展 这 一 定义 为 从 到 有 限 集 》， 使 和 LM 为 函数 戏 对 C BY 
上 的 限制 ， 并 保留 cy Gm) 的 定义 不 变 。 

神经 网 络 由 层 状 图 定义 。 令 Vo。，…，V7 为 图 中 各 层 。 固 定 1:€[T]， 通 过 设 定 V ;与 
V, 层 间 边 上 不 同 的 权重 ， 我 们 可 获得 RIM! 一 { 土 1}1%1 EMA RR. SHO 为 所 有 
有 R “一 一 { 士 1) 1 上 可 能 的 映射 ， 那么 允 可 以 写成 复合 形式 丸 二 KD。.… o HD, HEAT 
20. 4 中 我 们 给 出 假设 类 的 复合 生长 孔 数 是 以 各 个 类 的 生长 函数 的 积 为 界 的 。 因 此 


T 
mm) < || cu (m) 


此 外 ， 每 个 XK 都 能 写成 函数 类 的 积 K® SHO? Xe KHOI, EPH? H t 层 的 第 j 个 
神经 元 能 够 执行 的 从 :一 1 层 到 { 土 1) 的 所 有 函数 。 练 习 20. 3 中 ,我 们 限制 了 乘积 类 ， 这 
使 得 i 

|v, | 


tH (m) < I] tH) Cm) 


令 di 为 层 中 指向 第 ; 个 神经 元 的 边 的 数量 。 由 于 神经 元 是 齐 次 半空 间 假设 日 齐 次 半 
空间 的 VC 维 是 其 输入 维度 ， 根 据 Sauer 定理 有 


dii 
tut (m) <L Fa a (em) ui 


mA, RIA 
tu (m) < (em) 24s! = (em) |E! 


WE, 我们 假设 有 m 个 被 打 散 的 点 。 那 么 ,我 们 需 有 tx (m) =2", Mpiga 
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2m < (em)! E! >m < | E| log(em)/log(2) 
这 可 由 引 理 A. 2 推 得 。 is 
下 面 我 们 考虑 He， ， 其 中 为 sigmoid MR. HAW AH), e KY VC 维 要 低 于 边界 
Q(| 巨 |:)( 见 练习 20.5)。 这 意味 着 ，VC 维 是 可 调 参 数 的 平方 。 将 VC 维 的 上 界 视 为 
OCV|1?|E|”) 也 是 可 以 的 ， 但 证 明 不 在 本 书 范围 内 。 在 任何 情况 下 ， 由 于 在 实际 中 我 们 
只 考虑 这 样 的 神经 网 络 ， 即 权重 由 复杂 度 为 O(1) 比 特 的 浮 点 数 简 短 表 示 ， 通 过 使 用 分 离 
化 技巧 ， 我 们 能 够 轻松 地 知道 该 种 网 络 的 VC 维 是 O(|E|)， 即 使 我 们 使 用 sigmoid 函数 。 


20.5 学 习 神 经 网 络 的 运行 时 

在 之 前 的 章节 ， 我 们 已 经 揭示 具有 多 项 式 容量 的 神经 网 络 类 能 够 表达 所 有 能 够 高 效 执 
行 的 函数 ， 同 时 ， 样 本 复杂 度 依赖 于 网 络 的 体积 。 本 节 中 ,我 们 研究 训练 神经 网 络 的 时 间 

我 们 首先 说 明 在 ?Htv ec sm 上 执行 ERM 法 则 是 NP 难 问题 ， 即 使 该 网 络 只 有 包含 4 个 神 
经 元 的 单一 隐藏 层 。 

定理 20. 7 A R 之 3， 对 于 任意 的 s, 4>(V, E)A BLA nARAW AKA, (唯一 ) 
的 隐藏 层 具有 有 R 十 1 个 节点 ， 其 中 一 个 是 常数 神经 元 ， 且 网 络 只 有 一 个 输出 节点 。 那 么 ， 
IT Hy, sm 执行 ERM 法 则 是 NP 难 问 题 。 


证 明 依赖 于 & 着 色 问 题 的 推导 ， 留 作 练 习 20. 6。 l 

之 前 给 出 的 困难 性 结果 也 许 是 由 于 学 习 的 目的 带 来 的 ， 它 可 能 找到 一 个 具有 低 经 验 误 
差 的 预测 hEX， 而 不 是 准确 的 ERM。 但 是 ， 结 果 证 明 即 使 找到 权重 使 其 接近 经 验 误 差 也 
是 在 计算 上 不 可 行 的 ( 见 Bartleet®& Ben-David 2002) 。 

那 是 否 可 以 通过 改变 网 络 的 结构 以 回避 结果 的 困难 ?也 就 是 说 ， 也 许 ERM 对 于 原始 
网 络 结构 是 困难 的 ， 但 对 于 其 他 的 大 的 网 络 就 能 高 效 实现 ( 见 第 8 章 的 例子 )。 男 一 个 思路 
是 改变 激活 函数 (比如 sigmoid， 或 者 其 他 能 够 高 效 计 算 的 激活 函数 ) 。 这 些 方法 注定 会 
败 。 确 实 ， 在 一 些 假设 中 ， 学 习 半 空间 的 交叉 区 域 是 困难 的 ， 即 使 在 表示 独立 模型 的 学 习 
中 ( 见 Klivans &Sherstov 2006) 。 这 意味 着 在 同样 的 假设 下 ， 半空 间 交 又 区 域 的 学 习 是 不 
高 效 的 。 

一 个 广泛 使 用 的 局 发 式 神经 网 络 学 习 方法 是 我 们 在 14 章 中 讨论 的 SGD。 我 们 证 明了 
SGD 是 凸 损失 困 数 下 最 优 的 学 习 法 。 在 神经 网 络 中 ， 损 失 晒 数 是 高 度 非 凸 的 。 然 而 ， 我 
们 仍然 可 以 使 用 SGD 算法 ， 并 布 望 其 得 到 可 行 的 解 (就 像 一 些 实际 应 用 中 表现 出 的 那样 ) 。 


20.6 SGD 和 反 向 传播 

在 ?vs 中 以 低 的 风险 找到 假设 的 问题 等 价 于 找到 边 的 权重 的 问题 。 本 节 我 们 给 出 如 
何 用 SGD 算法 启发 式 搜索 最 优 解 。 我 们 假设 o 是 sigmoid 函数 c(a) 王 1/(1 十 e“)， 但 推导 
适用 于 任何 可 微 标量 函数 。 

由 于 是 有 限 集 ， 我 们 可 以 认为 权重 函数 是 一 个 向 量 wERIsI 。 假 设 网 络 有 nn 个 输 
入 神经 元 和 & 个 输出 神经 元 ， 记 为 h,:R" 一 RR， 在 给 定 w 表示 的 权 值 函数 后 它 有 网 络 计 
算 。 当 目标 是 yYEY 时 ，h, (x) 的 损失 函数 记 为 A(h,(x)，y)。 具 体 地 ， 我 们 将 认为 人 为 


平方 损失 Mr, =F lhe) 一? 上; 然而， 类似 的 推导 对 所 有 可 微 函 数 成 立 。 最 
终 ， 给 定 样本 域 RXR! 上 的 分 布 D， 令 Lp (w) 为 网 络 的 风险 ， 即 
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Lp (Cw) = E Ay (x) sy) | 


回顾 最 小 化 风险 函数 Lp (w) 的 SGD 算法。 我 们 在 14 章 的 伪 代 码 上 加 一 些 改进 ， 使 之 
与 神经 网 络 的 非 线 性 目标 函数 相关 。 首 先 ， 在 14 章 中 初始 化 w 为 零 向 量 ， 这 里 我 们 初始 
化 w 为 接近 零 的 随机 向 量 。 因 为 全 部 为 零 的 初始 化 会 使 隐藏 层 的 权重 相同 (如 果 网 络 是 包 
含 完 整 层 的 )。 此 外 ， 我 们 希望 如 果 反 复 执行 SGD 算法 ， 并 且 每 次 都 用 新 的 随机 向 量 初始 
化 ， 将 有 一 个 达到 局 部 最 优 。 第 二 ， 固 定 的 步 长 了 足够 保证 凸 函 数 问题 的 效果 ， 这 里 我 们 
使 用 变 步 长 p, A014. 4. 2 小 节 中 定义 的 。 由 于 损失 函数 的 凸 特性 ，7 序列 的 选取 是 至 关 
重要 的 ， 这 需要 反复 地 尝试 。 第 三 ， 我 们 在 验证 集 上 获得 最 好 的 输出 。 此 外 ， 有 时 对 权重 


加 入 正则 系数 是 有 效 的 。 即 ， 我 们 尝试 最 小 化 Lp (w) 十 分 1 wl*。 最 后 ， 梯 度 不 具有 解 
析 解 ， 取 而 代 之 ， 使 用 反 向 传播 算法 ， 如 下 文 所 述 ， 


神经 网 络 SGD 算法 

参数 : 

迭代 次 数 工 

步 长 序列 Mo Yor "Mr 

正则 参数 A 二 0 
输入 : 7 

TERV, E) 

TMA E A o: RR 
初始 化 : 

随机 选取 w ERIE| 

(分 布 使 ww 中 趋 于 0) 
循环 : ;一 1，2，…，r 

样本 (w， WD 

计算 梯度 vibackpropagation(x, yY, w(V, E), ø) 


更 新 with =w (2) — 7 Co; rw ) 
输出 : 
w 为 验证 集 上 最 优 的 ww 中 


反问 传播 算法 

输入 : 

样本 (Xx，y)， 权 重 向 量 w, ÆA, E) 

BiG DR: o:R~>R 
初始 化 : 

记 图 中 各 层 Vo，….， Vr， 其 中 Vi™= Uh *% Urk, } 

定义 Wij 为 (vi,;， UV 41.i) 的 权重 

eR Conjo) EE, Wanig = 二 0) 
前 向 : 

设 00 =x 
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循环 t=], 2e 
循环 E see 
k, 


ee! 
> me 
O pi = TW agi te) 


j=) 


设 Oi,i =o(a;,; ) 


设 07 一 GT 一 y 
循环 ==, 1 = hae ] 
循环 i=l, «s, kı 


ki 


a = >; WijiOe1j0 Camy) 


y=] 


输出 : 
TENA u 4 IEE 
设 定 偏 微分 Oi0 (ani )O, 一 1,) 





反 向 传播 如 何 计算 梯度 

下 面 我 们 解释 反 向 传播 算法 如 何 计算 给 定向 量 zs， 在 样本 C(x，y) 上 的 损失 函数 梯度 。 
我 们 首先 回顾 向 量 微 积分 的 定义 。 梯 度 中 每 一 个 元 素 都 是 网 络 各 边 上 V，EE，o 参数 的 偏 
微分 。 回 顾 仿 微分 的 定义 ， 给 定 图 数 f:R" 一 民 其 关于 w 中 第 i 个 变量 的 偏 微分 通过 
Wi Witis Wn 给 出 ， 这 产生 了 标量 函数 g:R> 民 ， 由 gla)=f Cw, s, wis 
wita, Wiis W, EL, RR g 二 0 的 微分 。 对 于 多 输出 函数 f:R" 一 R”"，f 在 wER' 的 
雅克 比 矩 阵 记 为 J,(f)， 它 是 mxXn BK, B iTi 列 元 素 为 f;:R" 一 恨 的 偏 微分 。 如 果 
7 一 1， 那 么 雅克 比 和 矩阵 是 顶 数 的 梯度 (表示 为 行 回 量 )。 下 面 是 两 个 雅克 比 矩 阵 的 性 质 ， 
我 们 将 在 后 面 使 用 。 

e+ f(w)=Aw, XFAER””, MAJ(N=A. 

o 对 于 任意 的 n，o 表示 R 到 R' 的 函数 ， 采 用 sigmoid 函数 。 即 ge 一 (9) 表 示 对 任意 的 


i, FRNA a a ce 容易 验证 Jo (o) Xt ABM. HG, OTHE 


I / 一 . + H 435 x / a o 
a 0)， 基 中 5 为 标量 sigmoid 旺 数 的 衍生 函数 ， 即 a O.)= Gay tema)” 


我 们 也 用 diag(G (6)) 表 示 这 个 矩阵 。 
复合 函数 微分 链 式 法 则 也 能 用 于 雅克 比 矩 阵 。 给 定 两 个 函数 SRR Ale: R—R’, 
我 们 有 在 w 处 的 复合 函数 (f。g) :Ri 一 R” 的 雅克 比 矩 阵 : 
Jf eg) = Jawa g) 
例如 ，g(w) 二 Aw， 其 中 AER, 我们 有 
Jw(f ° g) = diag(e' (Aw))A 
为 了 描述 反 向 传播 算法 ， 让 我 们 将 V 分 解 到 图 中 各 层 ，V== (JLoV,。 对 于 任意 的 1， 
我 们 记 V. 二 (vi,，…，vw}， 其 中 = 二 1V,|。 此 外 ， 对 于 任意 的 t 满足 W, ER BR 
个 和 矩阵， 其 给 出 了 V SV 各 个 边 的 权重 。 如 果 E 中 存在 这 条 边 ， 那 么 根据 w 我 们 将 
Wij 设 为 边 (vi;，wvit1,;) 的 权重 。 否 则 ， 我们 加 入 “虚拟 的 ” 边 并 将 权重 设 为 0， 即 
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W, 二 0。 由 于 计算 各 个 边 权重 的 偏 微分 时 ， 我 们 会 固定 其 他 的 权重 ,这 些 “ 虚 拟 ” 加 入 
的 边 对 计算 已 有 权重 的 偏 微分 不 会 有 影响 。 不 失 一 般 性 ， 我 们 可 以 认为 所 有 的 边 均 存在 ， 
EI E= U, (VXV). 

下 面 ， 我 们 讨论 如 何 计 算 VE V, We, KFW PIERRA. HF E 
定 了 网 络 中 其 他 的 权重 ， 可 以 推出 所 有 Vi 中 的 神经 元 输出 固定 不 受权 重 Wi 影响 ， 可 
以 用 o 表示 。 此 外 ， 我 们 用 4 : R 一 民 表 示 各 个 子 网 的 损失 函数 ， 子 网 由 V, s 
Vr BEM, UV, 神经 元 的 输出 为 图 数 。VW， 中 神经 元 的 输入 可 以 写成 ww =W i0 ， 输 出 
AUER o=o), B, Rj, RITA ou 一 cCc) 。 我 们 得 到 的 损失 是 W, 的 函数 ， 
能 够 写成 

gı Wm) = £,00,) = £,(e6(a,)) = tt,(o(W, 10.1)) 

按照 以 下 的 方法 重 写 上 述 内 容 将 是 方便 的 。 令 wai CR=* A W, PRITE Fe E M 
的 列 向 量 。 定 义 ONA Re X Ckik JERE: 


o} | O 
0 a. aoe 0 
On =l. Sa | (20. 2) 
0 0 eee oli 
AA, Wio- =O- w MARITA 


gi w) = Lle lOar Ww )) 
因此 ， 使 用 链 式 法 则 ， 我 们 得 到 
J» ED = Jao, (CD)diag(e (Om ws) On 
使 用 我 们 的 符号 ， 有 o,=0(O,-, w) H a50- w- XE 
Jw, Bi) = Jo, (4)diag(e (qa,))O, i 
令 6 二 J (bk,)， 那 么 ,我们 将 上 式 进一步 写成 
Jw, ED = Ono Car 071 stseene (ak, OF) (20. 3) 
它 被 用 于 计算 向 量 =J, C). Ext o Mbt, 的 梯度 。 我 们 用 迭代 方法 求解 它 。 首 先 注 
意 到 ， 对 于 最 后 一 层 ， 我 们 有 tr (wu) 二 A(u,，y)， 其 中 A 为 损失 函数 。 由 于 我 们 假定 


Au, y=Slu—yl?, BI. er) =(u—y). HL. Br = J, Cr) =Cor—y). FE, AA 


£u) = tu (oC(W uw) ) 
因此 ， 根 据 链 式 法 则 有 
Jub) = Joww ly) diag(o’ (Wu) )W, 
特别 地 ， 
6,= Jo, 4) = Jew, lus diag(o (Wo))T 
= Jo, bus )diag(o’ (a1) )W, 
= bn: diag(o’ (a, ))W, 
总 之 ， 我 们 可 以 首先 从 网 络 的 底部 向 上 计算 向 量 {aw，o}。 而 后 ， 从 网 络 的 顶部 向 下 

计算 向 量 {6,}。 一 旦 计算 完成 所 有 向 量 ， 就 可 以 通过 式 (20. 3) 轻 松 计算 偏 微分 。 我 们 已 经 
展现 了 反 回 传播 计算 梯度 的 伪 代 码 。 


20.7 小结 
图 体积 为 s(n) 的 神经 网 络 能 够 描述 所 有 运行 时 间 为 O( VC ) 的 假设 类 预测 。 我 们 也 
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证 明了 它 的 样本 复杂 度 为 s(n) 的 多 项 式 (特别 地 ， 它 依赖 于 网 络 边 的 个 数 )。 因 此 ， 神 经 网 
络 假设 类 似乎 是 个 不 错 的 选择 。 遗 憾 的 是 ， 基 于 样本 集训 练 神经 网 络 是 难于 计算 的 。 我 们 
给 出 了 SGD 框架 作为 神经 网 络 训练 的 启发 式 方法 ， 并 给 出 了 反 向 传播 算法 ， 它 能 高 效 计 
算 各 个 边 上 权重 损失 函数 的 梯度 。 


20.8 文献 评 ; 

神经 网 络 在 19 世纪 80 年 代 和 90 年 代 初 期 得 到 广泛 研究 ， 但 只 有 经 验 上 的 成 功 。 最 
近 ， 算 法 上 的 进步 以 及 数据 体积 和 计算 能 力 上 的 提升 ， 使 神经 网 络 的 有 效 性 获得 突破 。 特 
别 是 深度 网 络 ( 即 2 层 以 上 网 络 ) 已 经 在 许多 领域 表现 出 优异 的 性 能 。 例 子 包 括 卷 积 网 络 
(LeCun & Bengio 1995)， 受 限 玻 尔 兹 曼 机 (Hinton，Osindero &Teh 2006)， 自 动 编码 
(Ranzato 等 2007，Bengio & LeCun 2007, Collobert & Weston 2008, Lee 等 2009，Le 等 
2012) 和 -=- 积 网 路 (Livni，Shalev-Shwartz & Shamir 2013, Poon & Domingos 2011). 。 同 时 
也 有 (Bengio 2009) 和 其 他 的 资料 。 

神经 网 络 的 表达 力 和 其 与 电路 复杂 度 的 关系 也 得 到 了 研究 (Parberry 1994) 。 为 研究 神 
经 网 络 的 复杂 度 ， 我 们 建议 参考 Anthony & Bartlet (1999) 。 我 们 证 明定 理 20. 6 的 技巧 参 
考 Kakade 和 Tewari 的 演讲 笔记 。 

Klivans 和 Sherstov(2006) 已 经 证 明 对 于 任意 的 c>0, n 半空 间 在 { 士 1}” 上 的 相交 部 
分 不 能 通过 PCA 有 效 学 习 ， 即 使 我 们 允许 表示 独立 学 习 。 这 一 困难 是 出 于 以 下 假设 ， 即 
唯一 最 短 回 量 问 题 不 存在 多 项 式 时 间 的 解 。 我 们 认为 ， 它 暗示 着 神经 网 络 的 训练 不 能 找到 
高 效 算 法 ， 即 使 我 们 允许 更 大 的 网 络 或 其 他 的 能 人 够 高 效 执行 的 激活 函数 。 

反问 传播 算法 由 Rumelhart, Hinton 和 Williams(1986) 提 出 。 


20.9 练习 

20.1 神经 网 络 是 通用 拟 合 器 : 假定 f:[ 一 1，1" 一 [一 1，1j 是 o- 利 普 看 茨 函 数 。 给 定 
e€ >, LD. Wis—P> HAM 2 N:L—1, 1)">L—1, 1], U sigmoid 函数 为 激励 
PRA, TREX PRET xel, 1)" A] f(x) 一 N(x) | <e, 
提示 : 类 似 于 定理 19. 3 HEA, il, 1)" WMPABAYADAB. FAMAAAK 
性 质证 明 函 数 了 三 在 每 个 小 答 形 上 都 近似 于 常数 。 最 后 ， 证 明神 经 网 络 根据 输入 向 量 
所 在 的 小 和 矩形， 预测 网 络 的 输出 值 为 三 在 该 小 矩形 上 的 平均 值 。 

20.2 ”证 明定 理 20. 5。 
提示 : 对 于 任意 函数 f:[ 一 1，1]" 一 [一 1]，1]， 构 造 一 个 1 - 利 普 希 英 函数 g:[ 一 1， 
1 一 [L 一 1，1]， 证 明 可 以 逼近 5， 从 而 可 以 逼近 f, 

20.3 乘积 的 生长 函数 : 对 于 i 一 1，2, SF, 为 从 zt 到 RAE., ELH=F XF, H 
Cartesian 乘积 类 。 即 对 任意 的 f1 CF, 和 fo CF... FETE CHEE h(x)=(fi (x), 
天 《XY))。 求 证 tH (MKT, (m)r, (Cm). 

20.4 复合 的 生长 函数 : SF, 为 从 到 Z KRAE., Fo 为 从 Z 到 站 的 函数 集 。 定 义 
区 二 下 ,。 开 | 为 复合 类 。 即 对 任意 的 Si GF, 和 fo€ Fo, FFE hE 使 得 h(x) 二 
fo(f1(x))。 求 证 tu (MST, (mr, (m) s 

20.5 Sigmoid 网 络 的 VC 维 : 本 题 中 ,我 们 将 证 明 存 在 一 个 图 C(V， 巨 )， 使 得 该 图 上 以 
Sigmoid 阴 数 为 激励 旺 数 的 神经 网 络 的 VC 维 是 Q (|E|:)。 注 意 到 对 于 任意 的 
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e>0, Sigmoid 函数 都 能 以 e 的 精度 逼近 阔 值 激励 函数 y> 。 为 简化 证 明 ， 在 本 
题 中 ， 我 们 假设 Sigmoid 函数 能 够 精确 实现 阔 值 激励 函数 yo 。 


固定 某 个 n。 

1) 构造 网 络 Ni, HREAN O(n), KH RARABI(O, 1)” 且 满 足 如 下 性 质 : 对 于 任 
意 XE (0，1)”"， 如 果 网 络 的 输入 是 实数 0. zizz…z， 则 网 络 的 输出 为 x. 
提示 : 记 a= 一 0. tiz, 注意 到 当 r, =1 if, 10a— 05 不 小 于 0.5， 当 z= 二 
=]; l0e—O.5 RET —O. 3, 

2) 构造 网 络 Ns ， 其 权重 数 为 O(n)， 将 [nj 映射 到 {0，1)" 且 对 所 有 的 i 有 Na (iD 一 
e;。 也 就 是 说 ， 对 于 输入 值 i?， 网 络 的 输出 在 第 i 个 节点 值 为 1， 在 其 余 节 点 值 均 
为 0。 

3) Sars ts an 为 元 个 实数 ， 且 每 个 w HIGH O. af? ah? sab? ,其 中 a €{0, 1}, 
构建 网 络 Na HANER Om, KL ARERR, AER iC [nA NCG) =a. 

4) 联合 Ni 和 N33， 得 到 一 个 新 的 网 络 ， 其 输入 为 iE[n]， 输 出 为 a®。 

5) 构造 网 络 N 使 其 输入 为 (i，]) ELnj]X[Lnj， 输出 为 ef2 。 
提示 : {0，1)* 上 的 与 函数 (AND function) T H O(1) 权 重 表示 。 

6) 证 明 结 论 ; 存在 一 个 O(n) 权 重 的 图 ， 使 其 对 应 的 假设 类 的 VC 维 是 n, 

证 明定 理 20. 7。 

提示 : 可 参考 半空 间 的 相交 部 分 的 学 习 难 题 ， 见 第 8 章 练 习 32。 
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第 21 章 | 


Understanding Machine Learning: From Theory to Algorithms 


在 线 学 习 





本 章 我 们 讨论 另 一 种 学 习 模 型 一 一 在 线 学 习 。 在 前 面 的 章节 中 ， 我 们 已 经 讲 过 了 
PAC 学 习 模 型 : 首先 学 习 器 接受 一 批 训练 样本 ， 从 训练 集中 学 习 假 设 ， 并 且 只 有 在 完成 
该 过 程 之 后 才 运 用 学 习 到 的 假设 来 判别 新 样本 的 类 别 。 在 前 述 的 木瓜 学 习 问 题 中 ， 这 意味 
着 我 们 需要 首先 购买 一 堆 木 瓜 并 全 部 试 吃 。 然 后 ， 我 们 运用 所 有 信息 来 学 习 决 定 新 木 凤 口 
味 的 预测 规则 。 相 比 之 下 ， 在 线 学 习 的 过 程 在 训练 和 预测 环节 中 间 并 无 分 隔 。 相 反 ， 每 次 
我 们 购买 一 个 木瓜 ， 因 为 需要 先 预 测 其 口味 是 否 良 好 ， 它 首先 被 考虑 作为 一 个 测试 样 例 。 
咬 一 口 木 瓜 之 后 ， 我 们 获知 其 真实 标签 ， 随 后 这 个 木瓜 作为 训练 样本 用 于 提高 我 们 对 未 来 
的 木瓜 的 预测 机 制 。 

具体 来 说 ， 在 线 学 习 发 生 在 一 序列 连续 的 回合 里 。 在 每 一 个 在 线 的 回合 ， 学 习 器 首 
先 接受 一 个 新 实例 (比如 学 习 器 购买 一 个 木瓜 并 且 获 知 构成 该 实例 的 形状 和 颜色 )， 然 后 
学 习 器 需要 预测 其 标签 (比如 该 木瓜 是 不 是 美味 ?)。 在 回合 的 结尾 ， 学 习 需 得 到 其 正确 
的 标签 (已 经 尝试 该 木瓜 并 且 获 知 是 不 是 美味 ) 。 最 后 ， 学 习 器 运用 这 些 信息 来 提高 未 来 
的 预测 。 

为 了 分 析 在 线 学 习 ， 我 们 遵循 与 PAC 学 习 相 似 的 研究 路 线 。 我 们 从 二 值 化 分 类 问题 
的 在 线 学 习 开 始 。 既 考虑 可 实现 的 情况 ， 在 这 种 情况 下 ， 先 验 知 识 是 假定 所 有 标签 从 给 定 
假设 集合 上 的 某 些 假设 生成 ; 同时 也 考虑 不 可 实现 的 情况 ， 这 对 应 于 不 可 知 PAC "J #8. 
特别 地 ， 我 们 介绍 一 个 重要 算法 ， 称 为 加权 投票 。 其 次 ， 我 们 研究 损失 函数 是 凸 函 数 的 在 
线 学 习 问 题 。 最 后 ， 我 们 介绍 感知 器 算法 作为 在 线 学 习 中 运用 替代 凸 损失 函数 的 一 个 
例子 。 


21.1 可 实现 情况 下 的 在 线 分 类 

在 线 学 习 在 一 序列 连续 的 回合 里 执行 : 在 回合 :， 学 习 器 接收 从 实例 域 t 获 取 的 实例 
x,， 并 且 需 要 提供 其 标签 ， 记 预测 标签 为 p,。 在 预测 标签 之 后 ， 学 习 器 获知 其 真实 的 标签 
y,E{10，1}。 学 习 器 的 目标 是 在 这 个 过 程 中 尽 可 能 少 地 预测 错误 。 学 习 器 尝试 从 先前 的 回 
合 中 推断 有 效 信息 ， 从 而 在 未 来 的 回合 中 提高 预测 性 能 。 

显然 ， 如 果 在 过 去 和 现在 的 回合 之 中 没有 任何 相关 ， 学 习 是 没有 希望 的 。 在 本 书 前 面 
部 分 ， 我 们 研究 PAC 模型 的 时 候 假定 了 过 去 和 现在 的 样本 独立 同 分 布地 采样 于 相同 的 源 
分 布 。 在 线 学 习 模 型 中 ， 我 们 对 样本 序列 的 来 源 不 做 统计 上 的 假设 。 样 本 序列 可 以 是 确定 
性 的 ， 也 可 以 是 随机 的 ， 或 者 甚至 是 敌对 式 地 根据 学 习 器 自身 行为 进行 调整 的 (比如 垃圾 
邮件 的 过 滤 )。 自 然而 然 地 ， 一 个 对 手 可 以 让 在 线 学 习 算 法 的 预测 错误 任意 地 大 。 例 如 ， 
这 个 对 手 可 以 在 每 个 回合 展示 相同 的 实例 ， 等 待 学 习 器 的 预测 ， 然 后 提供 一 个 相反 的 标签 
作为 正确 标签 。 

为 了 做 出 不 平凡 的 陈述 ， 我 们 需要 进一步 限定 这 个 问题 。 可 实现 性 假设 是 一 个 可 能 且 
自然 的 限制 。 在 可 实现 的 情况 下 ， 我 们 假定 所 有 的 标签 从 假设 h Ay 生成 。 更 进一步 ， 
h 是 从 学 习 器 已 知 的 假设 集 妈 中 获取 的 。 这 和 我 们 在 第 3 章 中 研究 PAC 学 习 模 型 是 相似 
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的 。 有 了 这 个 限制 ， 假 设 h* 和 实例 序列 可 以 由 对 手 来 选 定 ， 学 习 器 也 应 该 尽 可 能 少 地 犯 
错误 。 对 于 在 线 学 习 算 法 A， 记 A 在 标记 h" EX 的 样 例 序 列 上 可 能 犯 的 错误 的 个 数 最 多 
为 Ma (XH)。 我 们 再 次 强调 ，h* 和 实例 序列 可 以 由 对 手 来 选 定 。iMa WM 的 界 称 为 误差 界 ， 
我 们 将 会 研究 如 何 设计 算法 使 得 Ma (KX) 最 小 。 正 式 地 ， 

定义 21. 1( 误 差 界 ， 在 线 可 学 习性 ) 令 M 表 示 假 设 集 ，A 表示 在 线 学 习 算 法 。 考 虑 序 
列 S=(2,, h*(y1)), o> (ar, h* (yr))， 其 中 丁 是 任意 整数 ，h" CH, 令 Ma(S) 表 示 
在 序列 S 上 A 预测 的 错误 个 数 。 记 MA (KX) 为 上 述 格 式 的 序列 上 的 M4(S) 的 上 确 界 。 形 如 
Ma (XH) 志 B 二 oo 的 界 称 为 误差 界 。 称 假设 集 和 是 可 在 线 学 习 的 ， 如 果 存 在 一 个 算法 使 得 
M, (H)<B<co, 


我 们 的 目标 是 研究 哪些 假设 集 在 在 线 学 习 的 模型 下 是 可 学 习 的 ， 尤 其 是 为 给 定 假设 集 
找到 一 个 好 的 学 习 算法 。 

评注 “在 本 小 节 和 下 一 小 节 中 ， 我 们 忽略 学 习 问 题 的 计算 复杂 性 ， 并 且 不 限定 算法 必 
须 高 效 。 在 21.3 和 21.4 节 ， 我 们 研究 高 效 的 在 线 学 习 算 法 。 

为 了 简化 表示 ， 我 们 从 有 限 的 假设 集 开 始 ,， MAS, IHI<, 

在 PAC 学 习 中 ， 如 果 ZX 是 可 学 习 的 则 可 以 由 ERM 规则 学 习 ， 在 这 种 意义 下 我 们 界定 
ERM 是 一 种 好 的 学 习 算法 。 在 线 学 习 的 一 种 自然 学 习 规 则 是 利用 (在 任何 一 个 在 线 的 回合 
中 的 ) 任 一 ERM 规则 ， 也 就 是 说 ， 采 用 任何 与 过 去 的 样 例 相 一 致 的 假设 。 


输入 : 有 限 假 设 类 NH 

初始 化 : Vi=H 

对 于 上 一 1，2，… 
FEWL x, 


选择 HEV, 

预测 p,=h(x,) 

接收 真实 标签 y, =h* Cx) 
RAV = {hEV,: h(x)=y,} 





一 致 性 (Consistent) 算 法 维护 一 个 集合 V,, HPMSMAA CK, yi), 1, m, 
y-1) 一 致 的 假设 。 这 个 集合 通常 被 称 为 可 行 域 。 学 习 器 从 V, 中 选取 任 一 假设 ， 根 据 它 进 
行 预测 。 

显然 ， 无 论 何 时 一 致 性 算法 犯 了 预测 错误 ， 至 少 一 个 假设 将 从 V, 移 除 。 因 此 ， 在 做 
出 M 个 错误 之 后 |V, | 二 1X1 一 M。 由 于 VW, 非 空 ( 由 可 实现 假设 ， 其 包含 h* )， RNA 1< 
IV| 二 1X1 一 M。 整 理 可 得 如 下 结论 : 


推论 21. 2 令 和 表示 有 限 假 设 集 。 一 致 性 算法 的 误差 界 为 Meonsictem H)I<IHI—1, 


很 容易 构造 一 个 假设 集 和 样 例 序 列 使 得 一 致 性 算法 实际 上 将 做 出 1X1 一 1 个 错误 (参见 
练习 21. 1) 。 因 此 ， 我 们 介绍 一 个 更 好 的 算法 ， 其 中 通过 一 种 更 聪明 的 方式 选取 hE€EV,， 
我 们 将 看 到 这 个 算法 可 以 保证 指数 式 地 犯 更 少 的 错误 。 


第 三 部 分 其 他 学 习 模 型 


输入 : 有 限 假设 类 

初始 化 : Vi 二 

对 于 上 一 1，2，… 
FENL x, 


预测 p: =argmax | {hEV,: h(x) =r} | 
(约束 预测 p,=1) 

接收 真实 标签 y, =h* (x,) 

更 新 V1 二 {hE€EVi: h(x,)=y,} 





定理 21.3 令 姑 表示 有 限 假设 集 。 二 分 (Halving) 算 法 的 误差 界 为 Murn (H) 
log, (lH). 


证 明 ”我 们 只 要 注意 到 : 无 论 算法 误差 为 何 ， 始 终 成 立 |Vir | 三 |V,|/2( 因 此 称 为 二 
分 )。 因 此 ， 如 果 总 误差 数 为 M， 则 有 
l< |Vrn |< IHI” 
整理 这 个 不 等 式 可 以 得 到 所 要 证 明 的 结论 。 a 
二 分 算法 的 误差 界 当 然 比 一 致 性 算法 的 误差 界 好 得 多 。 我 们 已 经 看 到 在 线 学 习 和 
PAC 学 习 的 不 同 之 处 一 一 在 PAC 下 ， 任 一 ERM 的 假设 都 是 好 的 ， 而 在 线 学 习 下 ， 选 择 
任意 的 ERM 假设 远 未 达到 最 优 。 


在 线 可 学 习性 

接 下 来 我 们 采用 更 普遍 的 方法 来 刻画 在 线 可 学 习性 。 特 别 地 ， 我 们 关注 下 述 问题 : 给 
定 假设 集 戏 ， 什 么 是 最 优 的 在 线 学 习 算 法 ? 

我 们 引入 假设 集 的 维 数 概念 来 刻画 可 达到 的 最 优 误差 界 。 这 种 度量 由 Nick Litter- 
stone 提出 ， 因 而 我 们 记 之 为 Ldim(H)., 

为 了 引出 对 Ldim 的 定义 ， 将 在 线 学 习 的 过 程 视 为 两 个 玩家 之 间 的 游戏 ， 分 别 是 学 习 
鲁 及 其 环境 。 在 游戏 的 第 t 个 回合 ， 环 境 挑 出 实例 x ， 学 习 器 预测 标签 p, € (0. 1}. BE 
环境 想 让 学 习 需 在 游戏 的 第 工 个 回合 出 错 ， 它 必须 输出 y, 二 1 一 p,。 唯 一 的 问题 是 它 如 何 
选择 实例 x, 使 得 对 于 某 些 假设 h* CHMA, IHES ELT], y=h* (x,) 成 立 。 

一 个 敌对 式 的 环境 的 策略 可 以 正式 地 描述 为 下 述 的 二 叉 树 : 其 中 的 每 个 节点 和 已 中 的 
一 个 实例 相关 联 。 最 初 ， 环 境 向 学 习 器 展示 和 根 节点 相关 联 的 实例 。 接 下 来 ， 如 果 学 习 器 
预测 p, 二 1， 环 境 将 声明 这 是 一 个 错误 的 预测 (也 就 是 说 ，y, 二 0) 并 且 向 当前 节点 的 右 子 树 
W WRJ p, 二 0， 则 环境 将 设 w=1 并 向 左 子 树 遍历 。 持 续 这 个 过 程 ， 在 每 

合 ， 环 境 将 展示 当前 节点 的 关联 实例 。 

正式 地 ， 考 虑 一 棵 深度 为 工 的 完全 二 又 树 (定义 树 的 深度 为 : 从 根 节 点 到 叶子 节点 的 路 
径 上 的 数目 )。 这 棵 树 上 有 2 一 1 个 节点 ， 每 个 节 ean 记 实 例 为 vi ，…， 
U T+ 。 我 们 从 树 的 根 节点 开始 ， 今 x 一 v1。 在 第 :个 回合 ; x, =U Hp i, 是 当前 节 
Flo 在 第 ;个 回合 的 结束 阶段， 如 果 y 王 0 我 们 转向 i 的 左 子 树 ， 如 果 y 一 1 则 转向 其 右 子 


il 
树 。 这 意味 着 ，i,41 二 2i, 十 y,。 解 该 递 推 式 可 以 得 到 i = 27+ Sy , 
j=l 
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前 述 的 环境 策略 成 功 当 且 仅 当 对 任何 (yi;，…，yr)， 对 所 有 的 ELT], FE h EHIE 
得 y= 二 h(x,) 成 立 。 这 引出 了 下 面 的 定义 。 


定义 21.4(H FAH) 一 棵 深度 为 d 的 打 散 树 ， 是 上 的 一 个 实例 序列 Ojo y 
vs_,， 对 应 于 每 一 种 标签 信息 (Yi1，…， ya) ELO, 1], FAACH, 使 得 对 任意 的 


fl 
tE[d], A hv; => 其 中 1 一 2 十 >. CT 
j=l 


一 个 深度 为 2 的 打 散 树 的 示例 在 图 21.1 中 给 出 。 


=> 
= 
N 


hy 


S 
* © © 
*— © 
= 
= 


* 
— ~— 





图 21.1 


定义 21. 5(Littlestone 维 (Ldim)) Ldim(1) 是 满足 下 述 条 件 的 最 大 整数 了: FER 
EA 工 的 被 戏 所 打 散 的 打 散 树 。 


由 Ldim 的 定义 和 前 述 的 讨论 立 得 : 


引 理 21.6 不 存在 误差 界 严格 小 于 Ldim(Z) 的 算法 。 换 言 之 ， 对 任意 算法 A， 我 们 
有 M,(H)>Ldim(H) 。 


证 明 4 T=Ldim(H), ##F vi, =, via HWE Ldim 定义 的 序列 。 对 所 有 
i:ELT]， 如 果 环 境 设置 x, 二 vw; 与 y, 二 1 一 p,， 那 么 学 习 器 会 犯 械 个 错误 ， 而 Ldim 的 定义 
蕴含 着 存在 一 个 假设 hEXH， 使 得 对 所 有 的 tt 有 yy, 二 h(x)。 a 

现在 给 出 几 个 例子 。 

SHURA A BILE. GSR, FEM HIT RM RE RAN log (HI). A 
此 ， pe eara 。 这 个 不 等 式 也 可 以 结合 引 理 21.6 和 定理 21. 3 推出 。 4 


AX={1, =, d}, H=(hi, s hajs HEP hi) =l 当 且 仅 当 z=j。 其 
次 ， 容 易 证 明 Ldim(H)=1, MIHI =d 可 以 任意 大 。 因 此 ， 这 个 例子 说 明 ，Ldim(1) 可 


以 远 小 于 log OHI). g 
4x=[0, 1], zhHdl 4:¢€[0, 1]}; 也 就 是 说 , XH 是 [0，1] 区 间 上 


的 阔 值 的 类 。 因此 er 为 了 说 明 这 一 点 ， 考 虑 树 : 





这 棵 树 被 民 打 散 ， 且 由 于 实数 的 稠密 性 ， 这 棵 树 可 以 构造 出 任意 深度 。 < 


引 理 21. 6 说 明了 Ldim(X) 是 任何 算法 误差 界 的 下 界 。 有 趣 的 是 ， 有 一 个 标准 算法 ， 
其 误差 界 正 好 匹配 这 个 下 界 。 这 个 算法 和 二 分 算法 相似 。 回 顾 二 分 算法 ， 其 预测 过 程 是 根 
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据 和 以 往 样 例 相 一 致 的 假设 的 多 数 投票 决定 的 。 我 们 记 这 样 的 假设 集合 为 V,。 换 句 话 说 ， 
二 分 算法 将 V, 分 割 为 两 个 集合 : VE 二 {hEVi:h(x) 二 1} 和 V, = 二 {hEVi:h(x,) 二 0}， 然 
后 根据 两 组 之 中 较 大 的 进行 预测 。 这 样 预测 的 理论 依据 是 无 论 何 时 二 分 算法 犯 了 一 个 错 
ik, EMAAR F |V |<0.5/V,]. 

下 述 的 最 优 算 法 采用 了 相同 的 思路 ， 但 并 非 依据 较 大 的 集合 ， 而 是 依据 具有 较 大 的 
Ldim 的 集合 进行 预测 。 


标准 最 优 算法 (SOA) 


输入 : 假设 类 XH 
初始 化 : Vi=H 
对 于 1 二 1]，2，…。 
接收 已 
F rE{0, 1}, AV, P? ={hEV,: h(x, =r} 
预测 p, = argmax Ldim(V,‘” ) 
(约束 预测 p,=1) 
接收 真实 标签 y, 
更 新 Vi+1 二 {hE€EV,: hCx,) = ye} 





下 述 引 理 正式 表述 了 上 述 算法 的 最 优 性 。 
引 理 21.7 SOA 算法 的 误差 界 为 Mon (H)<Ldim(H), 


证 明 只 需要 证 明 : 无 论 何 时 算法 犯 了 一 个 预测 错误 ， 都 成 立 Ldim (Vai) < 
Ldim(Vw, ) 一 1。 我 们 通过 反 证 法 ， 假 设 Ldim(V,4,)=Ldim(V,). RE AIT. p, 的 定 
义 则 意味 着 ， 对 r=1 Al r=0, Ldim(V, © ) 王 Ldim(Vw )。 但 是 ， 那 么 我 们 就 能 构造 一 棵 打 
散 树 ， 对 应 于 集合 V,， 其 深度 为 Ldim(V,) 十 1， 这 就 产生 了 矛盾 。 z 

结合 引 理 21. 6 和 引 理 21.7 可 以 得 到 : 

推论 21.8 令 了 表示 假设 集 。 标 准 最 优 算法 的 误差 界 为 Mson (XH) 二 Ldim(H)， 并 且 没 
有 其 他 算法 可 以 实现 Ma (H) 二 Ldim(X)。 


和 VC 维 的 比较 

在 PAC 学 习 模 型 下 ， 可 学 习性 是 通过 ?集合 的 VC 维 来 刻画 的 。 回 顾 一 下 ， 集 合 X 的 VC 
维 是 区 所 打 散 的 实例 x1, oe, Xe 的 最 大 整数 g。 也 就 是 说 ， 对 任意 标签 序列 (wy ，…，wD)E 
[0，1 了 ， 存 在 假设 EX 给 出 这 个 确切 的 标签 序列 。 下 述 定 理 说 明了 VC 维和 Littiestone 
维 之 间 的 关系 。 

定理 21.9 对 任意 假设 集 基 ，VCdim(H) 过 Ldim(H)， 并 且 存 在 集合 使 得 不 等 号 严格 
成 立 。 更 进一步 ， 二 者 的 差距 可 以 任意 大 。 

证 明 我 们 首先 证 明 VCdim(H)<Ldim(H), {RE VCdim(H) =d, Wx, =, x, 为 
打 散 的 集合 。 现 在 ， 构 造 一 棵 实例 为 wu ，…，wx_1 的 完全 二 叉 树 ， 其 深度 为 i 的 所 有 节 


点 都 是 x， 如 下 图 所 示 : 





打 散 集 的 定义 明确 地 告诉 我 们 已 经 得 到 了 一 棵 有 效 的 深度 为 4 的 打 散 树 ， 因 此 得 到 
VCdim(X) 志 Ldim(X)。 为 了 证 明 二 者 的 差距 可 以 任意 大 ， 只 需要 注意 到 例 21. 4 中 的 假设 
集 ， 其 VC 维 是 1, 但 是 其 Littlestonw 维 是 无 穷 大 。 z 


21.2 不 可 实现 情况 下 的 在 线 识 别 

在 上 一 小 节 我 们 研究 了 可 实现 情况 下 的 在 线 可 学 习性 。 现 在 我 们 考虑 不 可 实现 的 情 
况 。 同 不 可 知 的 PAC 模型 相似 ， 我 们 不 再 假设 所 有 的 标签 是 由 某 个 h* EX 生成 的 ， 而 是 
要 求学 习 器 与 # 中 国定 的 最 优 预测 器 进行 竞争 。 这 被 称 为 算法 的 缺憾 度 ， 其 度量 了 学 习 器 
没有 跟随 某 些 假设 的 预测 hEX 导 致 的 不 同 。 正 式 地 ， 在 个 样本 的 序列 上 ， 对 比 于 而 
言 ， 算 法 A 的 缺憾 度 可 以 定义 为 


T T 
Regreta (h, T) = sup PIAA C21, 1) 
(zl y1) Tyr?) py t=] 
Xt FRIAS. FRA REA 
Regret, (H,T) = supRegreta (h, T) (21, 2) 


我 们 重申 学 习 器 的 目标 是 对 于 拥有 可 能 的 最 小 缺憾 值 。 一 个 有 趣 的 问题 是 ， 是 否 能 
够 推导 出 一 种 缺憾 度 低 的 算法 ， 也 就 是 说 Regreta (XX，T) 随 着 回合 数 工 呈 次 线性 增长 ， 
这 意味 着 学 习 需 的 误差 率 和 ?ti 中 最 好 的 假设 之 间 的 差距 随 着 工 趋 于 无 穷 而 趋向 于 0。 

首先 我 们 证 明 这 是 一 个 不 可 能 的 任务 一 一 即使 1X1 = 二 2 也 没有 缺憾 值 的 界 为 次 线性 的 
RIE. BEE, SIRIH|=(ho» hi}, ho 图 数 永远 返回 0 {AM A, 返回 1。 对手 可 以 简单 地 
等 竺 学习 需 的 预测 然后 提供 相反 的 标签 作为 正确 标签 ， 就 可 以 让 在 线 学 习 算 法 的 错误 个 数 
等 于 工 。 相 反 ， 对 任意 正确 标签 的 序列 Yir “Ss Dre F & b BIR YS, oS ee TEAR 
标签 ， 那么 hs 犯 的 错误 至 多 为 T/2。 因 此 ， 任 一 在 线 学 习 算 法 的 缺憾 度 应 该 为 至 少 丁 
TV/2 王 IT/2， 这 并 不 是 工 的 次 线性 函数 。 这 个 不 可 能 性 由 Cover(1995) 提 出 。 

为 了 回避 Cover 的 不 可 能 性 ， 我 们 必须 进一步 限制 对 抗 的 环境 的 力量 。 我 们 通过 人 允许 
学 习 需 随机 生成 其 预测 来 做 到 这 一 点 。 当 然 ， 它 自身 不 足以 避免 Cover 不 可 能 性 ， 因 为 在 
推导 的 过 程 中 我 们 没有 对 学 习 器 的 策略 做 任何 假设 。 为 了 令 随 机 性 有 意义 ， 我 们 强制 对 抗 
的 环境 在 决定 w 时 ， 并 不 知道 学 习 带 在 第 i 个 回合 时 随机 投 出 的 硬币 的 结果 。 对 抗 的 环境 
依然 可 以 知道 学 习 器 的 预测 策略 ， 甚 至 包括 之 前 回合 的 随机 投 出 的 硬币 的 结果 ， 但 它 不 会 
知道 学 习 融 在 第 上 个 回合 采用 的 随机 投 出 硬币 的 真实 值 。 在 对 策 的 这 个 (轻微 ) 变 化 下 , R 
们 分 析 算 法 的 期 望 犯错 数 ， 其 中 期 望 对 学 习 器 自身 的 随机 性 求 取 。 也 就 是 说 ， 如 果 学 习 器 
IPLA =ll]=p, 输出 % ， 那 么 在 第 个 回合 它 付出 的 期 望 损失 为 

PLS: Ay] = |p,— ye | 

从 为 外 一 种 角度 理解 ， 不 认为 学 习 器 的 预测 落 在 {0，1} 内 ， 而 是 允许 其 取 值 在 [0，1] 
中 ， 并 且 将 p,€10， 1] 理 解 为 第 :个 回合 预测 标签 为 1 的 概率 。 

在 这 种 假设 下 ， 可 以 推出 一 种 低 缺 憾 度 算法 。 特 别 地 ， 我 们 将 证 明 以 下 定理 。 
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定理 21. 10 对 每 一 个 假设 集 姑 ， 存 在 一 个 在 线 识别 的 算法 ， 其 预测 来 自 于 LO0，1j， 
其 缺憾 度 满 足 


T T 
Yh EH, |p —yl— >) lhi) — |< V2min{log(|H]) , Ldim(H)log(eT)}T 
t=] 


更 进一步 ， 没 有 算法 能 够 达到 比 Q( VLdim(XK)T) 小 的 期 望 缺 憾 值 的 界 。 

我 们 将 会 对 定理 的 上 界 提供 一 个 构造 性 的 证 明 。 下 界 的 证 明 参 见 Ben-David, Pal 和 
Shalev-Shwartz(2009) 。 

定理 21. 10 的 证 明 依 赖 于 带 专家 建议 的 学 习 的 加 权 投 票 算 法 。 这 个 算法 很 重要 ， 下 一 
小 节 我 们 来 研究 它 


加 权 投 票 
加 权 投 票 是 解决 带 专家 意见 的 预测 问题 的 算法 。 在 线 学 习 问题 中 ， 学 习 器 在 第 :个 回 
合 需 要 从 4d 个 给 定 的 专家 中 选择 。 我 们 也 允许 学 习 器 通过 在 d 个 专家 上 定义 一 个 分 布 ， 从 
252| 而 随机 地 进行 选择 ， 也 就 是 说 ， 选 择 一 个 向 量 w”E [0，1]*， 其 中 diw” 一 1 ， 按 照 概 
Rw l 选择 第 i 个 专家 的 意见 。 学 习 器 选择 一 个 专家 之 后 ， 它 接收 一 个 代价 向 量 w E 
[0，1] ， 其 中 ww, 表示 听从 第 i 个 专家 的 代价 。 如 果 学 习 器 的 预测 是 随机 的 ， 那 么 它 的 损 
失 定 义 为 平均 代价 ， 即 D mwiwuw, 一 (ww ，w)。 算 法 假设 已 经 给 定 回合 数目 T. ERJ 


21.4 中 ， 我 们 介绍 如 何 利 用 倍增 技巧 摆脱 这 个 依赖 。 


输入 : 专家 数 d， 回 合 数 本 
参数 : 7= V2log(d)/T 
初始 化 : 而 = 二 (1，…，1) 
对 于 1 二 1，2，… 


A w? =W” P Ae 其 中 Z,= DW; 
t 


根据 PLij 二 w;"” 随 机 选择 专家 1 
接收 所 有 专家 的 代价 wE[L0，1] 
付出 代价 (w"”，wvw,》 

更 新 规则 Vi, WV = D; O ln 





下 述 定 理 是 分 析 加 权 投 票 算法 的 缺憾 度 界 的 关键 。 
定理 21. 11 假定 T>2log(d)， 加 权 投 票 算 法 的 界 为 


T T 
>» (w ,v,) 一 min > | v,i X Vv 2log(d) T 
j=] : =] 

证 明 ”我们 有 





log = A = log 2) “FZ wW’ Ta 一 7 ; = log > jw; CO oi 


运用 不 等 式 : 对 所 有 acO, 1), Pat, 并 且 运 用 事实 Jw? = 1 ， 可 以 得 到 


log A < log wi” (1 — hs + Te) 
- log(1 一 2w (pr = = )) 
de 
接 下 来 ， 注意 到 2E OO, 1), A, WASH 1 一 65 委 ee “两 边 取 对 数 可 以 得 到 不 等 式 
log(1 一 六 委 一 02， 其 对 于 所 有 b<1 成 立 。 可 以 得 到 


log 学 <- Dw. o(p É Pth i) 


7 Dwi (0 of. 


一 一 hE i > 





<— yw” po) +7 
在 ! 上 对 该 不 等 式 求 和 ， 得 到 | 
log(Zri1) — log(Z,) = > log 人 ~- >? (w,v,) + Fy (21. 3) 
接 下 来 ， 我 们 寻找 Zr PF. HER MUBED =F ”半日 我 们 得 到 
logZr = log( Dj eX" )> log( max eži ) =— 9 min > yva; 
结合 上 式 和 公式 (21. 3), 并 且 运 用 事实 log2 一 log&， 得 到 | 
— gmin Dv — logid) <— >? (w so) + OL 


重新 整理 得 到 
T 
>) (w®,v,) — min >) ui < + 到 
t=] t 
将 了 的 值 带 人 方程 可 以 得 到 我 们 的 结论 。 a 


定理 21. 10 的 证 明 

有 了 加 权 投票 算法 和 定理 21. 11， 我 们 现在 可 以 证 明定 理 21. 10。 我 们 从 较为 简单 的 
情形 开始 ， 即 KH 是 有 限 集 ， 并 且 记 = (hi, ++, ha}. FERPA. RIEMER h 
为 一 个 专家 ， 其 建议 即 预测 h: (x,)， 其 代价 为 vi = |hi(x,) 一 y,|。 因 此 算法 的 预测 为 

=>; wh; (x,) €[0, Li 损失 为 
一 | Sih.) — a = | D wP Chix.) — y) 

如 果 y=l, 那么 对 所 有 的 ly he )—70, 因此 ， 上 式 等 价 于 LP wy? | A; (x, )—, | o 如 
At yy 二 0， 那 么 对 所 有 的 i，h;(x,) 一 y 宇 9。 上述 也 等 价 于 H3 wP |hi(xd—y |. BZ, RATE [254 
明了 

i » = Seal? lhe) —y | = (ov » V1) 


时 进一步 ， 对 任 一 i， 2 v PER, 所 犯 的 错误 的 数量 。 应 用 定理 21. 11， 可 以 得 
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到 以 下 推论 。 
推论 21. 12” 仿 和 表示 有 限 假 设 集 。 存 在 一 个 在 线 的 识别 学 习 算 法 ， 其 预测 在 L0，1 
Ea ial 


= Ca" min > lhet S — h l y AI FT 


下 面 ， 我 们 考虑 一 般 的 假设 集 的 情况 。 先前 ， 我 们 对 每 一 个 单独 的 假设 构造 一 个 专 
家 。 但 是 ， 如 果 X 是 无 限 的 ， 将 导致 一 个 无 意义 的 界 。 应 对 的 主要 思路 是 以 更 复杂 的 方法 
构造 一 个 专家 集合 。 挑 战 在 于 如 何 定 义 专 家 集合 ， 使 其 一 方面 不 太 大 ， 为 一 方面 包含 给 出 
精确 预测 的 专家 。 

我 们 构造 这 样 的 专家 集合 ， 其 对 于 任 一 假设 EK 和 每 一 个 实例 序列 x X25 tty Xr, 
集合 里 存在 至 少 一 个 专家 表现 得 和 在 这 些 样 例 上 的 一 致 。 对 任 一 LLdim(X) 和 任 一 序 
列 sei, Say, ST 我 们 定义 一 个 专家 。 这 个 专家 模拟 SUA 算法 (参见 前 面 的 小 
节 ) 和 环境 在 实例 序列 Xis Ke “""*» XT 上 的 游戏 ， 假设 SOA 在 回合 tis t2, ***s tL 上 精确 
犯错 。 专 家 可 以 用 下 述 算 法 定义 。 


Expert(i;, fo, "+, iL) 
输入 ; ARIK RH, FRR i ip << 
初始 化 : Vi =H 
对 于 t=1, 2, =, T 
FEW x, 
对 于 7E{0s 1}, AV, ={hEV,: h(x, =r} 


x Y, =argmax Ldim(V,“” ) 


(约束 预测 V, =0) 
i t= {ips iza =a ty} 
预测 ,二 1 一 
FM FRM J, = 
更 新 V+ =V, 9p 





注意 到 ， 每 一 个 这 样 的 专家 在 每 回合 上 只 观测 实例 xz x2, es x, 给 出 预测 。 通 用 在 
线 学 习 算 法 现在 是 这 些 专 家 的 加 权 投 票 算法 。 
为 了 分 析 算 法 ， 我 们 首先 注意 到 专家 的 数量 为 


Ldim(#) 


f= ot) | (21. 4) 


可 以 证 明 ， 当 TLdim(H) +2, 等 式 右边 的 的 界 为 CeTVLdim(3t))Uinoo (证 明 参 见 引 再 
A.5), 

” ”定理 21.11 告诉 我 们 ， 加 权 投 票 的 期 望 犯错 数 最 大 为 最 好 的 专家 犯错 数 乘 以 
v2log(d) 了 了。 我 们 接 下 来 将 证 明 最 好 的 专家 的 犯错 数 最 多 为 X44 中 最 好 的 假设 的 犯错 数 。 下 
述 天 键 引 理 证 明 ， 在 任 一 实例 序列 上 ， 对 任 一 假设 hEK 存 在 一 个 专家 表现 相同 。 


引 理 21.13 令 姑 表示 任 一 Ldim() 过 co 的 假设 集 。 令 XI ，Xx;，…， XT 表示 实例 序 
I, IES AEH, FH L<Ldim(H) fe Fir Ii, Sin< <i, KT, BE MK, 


9 


#21% 在 线 学 习 195 


x, 上 运行 专家 算法 (H， 记 ，*…， 讶 )， 对 于 在 线 学 习 的 每 一 个 回合 i 二 1，2，…， 了 ， 其 预 
m Ahl). 

证 明 固定 有 EK 和 序列 Xis X2, “**s XTo 我 们 需要 构造 L 和 下 标记， Las “s 270 考 
BTA, hCx)), (Œ, hz))，…，(Cx，A(Oxzr)) 上 运行 SOA 算法 。SOA 在 每 个 
输入 上 犯错 至 多 为 Ldim(H). SLES SOA JELHA, HAli, s ir) NJUR W El 
合 的 集合 。 

现在 ， FG TELE x X25 °°, XT 上 运行 专家 算法 (1， igs “ss indo 根据 构造 ， 专家 (1， 
ing tes i ) 维 护 的 集合 V, 等 价 于 运行 在 序列 (x hCGx))，Cxz， ACD)» or, (xr, h(xr)) 
上 由 SOA 维护 的 集合 。SOA 的 预测 和 户 的 预测 不 同 当 且 仅 当 该 回合 在 位 ，…， 均 } 中 。 因 为 


BR, 9 12 9 ong i) t ARF iih qT i ) 时 了 预测 同 SOA 一样 ， 如 果 t 属于 人 2 gs i, } Wl 
预测 与 SOA 的 预测 相反 ， 我 们 推论 : 专家 的 预测 和 的 预测 永远 是 一 致 的 。 


特别 地 ， 对 于 7 中 在 样本 序列 上 犯错 最 少 的 假设 ， 上 述 引 理 成 立 ， 因 此 我 们 得 到 下 述 
推论 。 

推论 21. 14 令 表 示 样 本 序列 ， 姑 表示 LdimW)<OomRkE, AH L<Ldim(H) fo 
下 标 iy Sige, KT, 使 得 专家 (i ，is。，…， 广 ) 最 多 犯错 数 和 最 好 的 假设 h€EXHM 一 
致 ， 即 在 样本 序列 上 犯错 数 为 


mip) [ACs — yr | 
合 定 理 21.11, M 21.10 的 上 界 部 分 得 证 。 


21.3 在 线 凸 优化 


在 第 12 章 中 我 们 研究 了 凸 学 习 问 题 ， 并 且 在 不 可 知 PAC 学 习 框 架 下 介绍 了 这 些 问题 
的 可 学 习性 。 本 节 我 们 介绍 在 线 学 习 框 架 下 凸 问题 可 学 习性 的 类 似 结果 。 特 别 地 ， 我 们 考 
虑 下 述 问题 ; 


FER AAU. 
定义 : HRIRFH, KZ, MABR: HXZ>R 
假定 : HAG; VrEZ, Ce, we Æ HH 
WFtr=1, 2, =, T 


学 习 器 预测 一 个 向 量 w” CH 
环境 响应 ZEL 
学 习 器 遭受 损失 &(z 沁 ， zi) 





和 在 线 识别 问题 一 样 ， 我们 分 析 算 法 的 缺憾 度 。 回 顾 在 考虑 竞争 性 假设 的 条 件 下 ， 在 
线 学 习 算 法 的 缺憾 度 如 下 定义 ， ORES OO RE al EH: 


Regreta (w* ,T) = S) Kw” p) — DI Ku" +2) (21.5) 


与 前 面 类 似 ， 相 对 于 一 一 系列 竞争 向 量 的 集合 ， 算法 的 缺憾 度 定义 为 
Regret (H, T) = kea Regreti (w* ,T) 


在 第 14 章 ， 我 们 介绍 了 不 可 知 PAC 模型 下 的 随机 梯度 下 降 方法 ， 用 于 解决 凸 学 习 问 
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题 。 我 们 现在 介绍 一 个 非常 相似 的 算法 一 一 在 线 梯度 下 降 ， 用 于 解决 在 线 凸 学 习 问 题 。 


在 线 梯 度 下 降 

参数 : y>0 
初始 化 : w” = 
对 于 上 一 1，2，…， 了 

预测 w” 

Hlk zx, HA fC e =O es z) 

选择 v, EC Of, lw”) 

更 新 : 


Dwz) =w —yv, 


2) w“? =argmin|| w — w G+z) | 
wEH 





定理 21.15 对 任意 w EC， 在 线 梯度 下 降 算 法 的 缺憾 度 的 界 如 下 ，: 


x |i2 T 
Rese tw ,Ty Le ay jw, he 
27 a sal 
如 果 我 们 进一步 假设 f, 对 任意 上 AA o - 利 普 希 芯 性 ， 令 和 = 让， 得 到 
Regreta(w* ,T) < ad w* |? FT 


如 果 我 们 进一步 假设 H 是 B- 有 界 的 ， 并 令 -了 让: 则 
Regret, (H, T) < Bo fT 
证 明 FRESIA BL BBE PEROT AD. FERS, wP EY 


和 子 梯度 的 定义 ， 得 到 对 任意 的 t, 


| wr? = |2 一 | w” — ey ||? 
=| wv? — w* |? — wt? — w* |? + we? — w* |? —| w® 一 zo* |? 
<|w? ow |? — |w? — wl 
=| w? —w,—w* |? — [v —w* |? 


=— 2y.w —w" ,v,) +7 la, ||? 
<— 2 fw) — f, Cw" )) +f wl 
对 所 有 的 t+ 求 和 ， 注意 到 左 侧 是 一 个 伸缩 和 ， 可 以 得 到 


y T 
Jw — w* |? — | w? — w* |? <— 29d) w) fw DHA ol? 

j=] t=1 
整理 不 等 式 ， 运 用 w” =0, 448); 


Sie Cw) (wt) lw@=w" P—|w 
2, fi(w filw*)) [X Zy 


(T+1) 


=t ay 2 
t=] 


<i +e) bel 
这 证 明了 定理 的 第 一 个 界 。 而 第 二 个 界 来 自 于 由 假设 /, 是 p - 利 普 希 芯 的 ， 也 就 是 说 


FASS m 


21.4 在 线 感知 器 算法 

感知 器 是 一 个 经 典 的 二 值 分 类 问题 的 在 线 学 习 算 法 ， 其 假设 集 为 齐 次 半空 间 ， 即 ?三 
(x sign((w, x)):wER’}. Æ 9.1.2 节 我 们 介绍 了 感知 器 的 批 处 理 版 本 ， 其 目标 是 解 
决 和 上 的 ERM 问题 。 现 在 介绍 感知 器 算法 的 在 线 版 本 。 

令 4X 一 隧 ，J) 王 (一 1，1)。 在 第 上 个 回合 ， 学 习 器 接受 癌 量 CR. SURAT 
权重 向 量 w? CR’. FF AFM) p,—sign((w”, x,)), HARM y CY. MR vy ~Ap, WA 
出 代价 1， 反 之 代价 为 0。 

学 习 器 的 目标 是 尽 可 能 少 犯 预测 错误 。 在 21. 1 节 中 我 们 描绘 了 最 优化 算法 ， 并 且 证 
明了 可 实现 的 最 优 误差 界 取 决 于 假设 集 的 Littlestone 维 。 随 后 我 们 论述 ， 如 果 d2, M 
Ldim(H) 一 ce， 这 意味 着 我 们 不 可 能 只 犯 较 少 的 错误 。 事 实 上， 考虑 树 : zm = 


(2, 人 


数 的 稠密 性 ， 打 散 这 棵 树 的 集合 是 戏 的 子 集 ， 其 中 戏 包 含 所 有 以 形 如 友 =( 一 1，&，0，… 
0)(a€E[L0，1j) 的 参数 所 表示 的 假设 。 可 以 得 出 结论 : LdimCH)=co, 

为 了 回避 这 个 不 可 能 性 ， 感 知 右 算法 运用 替代 凸 损 失 函 数 的 技巧 (参见 12. 3 节 )。 这 
也 和 我 们 在 第 15 章 所 研究 的 间隔 的 概念 相关 。 

只 要 (w，x) 的 符号 和 y 不 相等 ， 权 重 向 量 w 预测 样 例 (x，y) 发 生 错 误 。 因 此 ， 我 们 
可 以 重 写 0 一 1 损失 函数 如 下 : 

Elw, (X,Yy)) = Liw oo] 
EFKAR AMMERS, RITTAA E ingo HREH HR PR 
F.Cw) = max{0,1— yl wx} 

合 页 损失 函数 满足 下 列 两 个 条 件 : 

© f, 是 一 个 是 函数 ; 

o 对 所 有 的 w, f.(wSllw, (x, y,)). RBH. Hw tare. 

在 每 次 算法 预测 正确 的 回合 ， 我 们 定义 f,(w) 二 0。 显 然 在 这 种 情况 下 f, 也 是 凸 函 
数 ， 而 且 f,(w)—lCw, (xs y,)) =0, 

评注 在 12.3 节 中 我 们 对 所 有 的 训练 样 例 运用 了 相同 的 替代 损失 函数 。 在 线 学 习 的 
模型 中 ， 我 们 允许 依据 特殊 的 回合 甚至 可 以 依据 w“ 来 使 用 替代 函数 。 我 们 能 使 用 专门 的 
蔡 代 函数 基于 在 线 学 习 中 对 于 最 坏 情 况 的 分 析 。 

现在 ， 在 函数 序列 fi. +, fr 和 全 体 的 下 中 向 量 构成 的 假设 集 上 ， 运 行 在 线 梯度 下 
降 算 法 。 回 顾 ， 算 法 初始 化 wm 二 0， 且 更 新 公式 为 

ER nv, 
其 中 v Edf, Cw), EXE, WR ylw”, x) >0, Wf 是 零 函 数 ， 所 以 v,=0. Bal, 
容易 验证 v =— yx, FE Of, (Cw ) 之 中 。 因 此 可 以 得 到 更 新 公式 为 
Sp a a yXw x) >0 
ey + yx, 其 他 

记 sign((w, x, Ay, 的 回合 集合 为 M。 注 意 到 在 第 1 个 回合 ， 感 知 器 的 预测 可 以 

写成 


pr 一 sign( w” X22 > sign( 7 a Vilki) 
iEM.:i<t 
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这 个 形式 意味 着 感知 器 算法 的 预测 和 集合 M 不 依赖 于 7 的 真实 值 ， 只 要 > 即 可 。 


因此 我 们 得 到 感知 器 算法 如 下 : 


初始 化 : zi 一 0 
对 于 FS By A 和 


FEW x, 


预测 p,=sign((w’, x,)) 
若 ylw, X,»<0 
wp TO =y” FH, 


否则 wt — w” 





为 了 分 析 感 知 需 算法 ， 我 们 运用 前 一 部 分 给 出 的 在 线 梯度 下 降 算 法 。 在 这 里 ， 感 知 器 


算法 中 用 到 的 f, TREN v = — 1p, ww <0 Xro 实际 上 ， 感 知 器 算法 的 更 新 公式 为 
wn? 二 ww 中 一 ， 并 且 如 前 讨论 的 ， 这 等 价 于 对 任意 7>>0，w' 人 ?二 w — p. Alt. H 
定理 21. 15 可 以 知道 


DAW- fw) <P bw H+ BD Del 
由 于 fw) EAF 0 一 1 损失 的 替代 ， 可 知 Sf Cw SIMI. ic R=max||x,| , 
可 得 7 
Mim Diw Elw H+ BLM 


| w* | P 
PSs gp H 


1 
IMI—R]w* | VTMT — >) flw) <0 (21. 6) 
t=1 
这 个 不 等 式 推出 以 下 定理 。 
定理 21. 16 假定 感知 器 算法 在 序列 (x > V vss (xr, yr) 上 运行 并 且 令 R=max, |x, | ’ 


记 人 4 为 感知 器 算法 预测 错误 的 回合 ， 令 f, Cw) =1prem [1 一 y,(w，x,)]; 。 则 对 任意 的 
Ww” y 有 


IMIS Dyfi Cw") +Riw" /> fiw +R? | w* | 


特别 地 ， 如 果 存 在 w“, IERTA t, 成 立 y,(w*, peels 则 


IMIS R || w* |’ 
证 明 这 个 定理 可 以 从 公式 (21.6) 和 下 述 论断 得 到 : A zr, b, cERL, KEK x 一 


b Vx 一 c<0 意味 着 zc 十 大 十 bYc 。 这 个 论断 可 以 简单 地 从 分 析 凸 抛物 线 QCy) = y’ b= 
c 的 根 得 到 。 到 


定理 21. 16 的 最 后 一 个 假设 称 为 最 大 间隔 可 分 离 性 (参见 第 15 章 ) 。 也 就 是 说 ， 存 在 


w "不仅 满足 将 样本 点 分 在 半空 间 正确 的 一 侧 ， 而 且 保 证 其 不 太 靠近 决策 面 。 更 严谨 地 说 ， 
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到 决策 面 的 距离 至 少 为 rip ， 并 且 上 述 定理 中 人 的 界 可 以 写 为 (】 。 

如 果 可 分 离 性 假设 不 成 立 ， 则 界 受 项 [1 一 y,《w，x,)]+ 的 影响 。 该 项 度量 了 可 分 离 性 
所 需 边界 被 破坏 的 程度 。 

作为 最 后 的 注解 ， 我 们 注意 到 存在 某 些 w* EFI ELER, 但 是 感知 右 将 会 犯 很 多 
错误 。 实 际 上 ， 这 是 Ldim(X) 二 oo 的 直接 结果 。 为 了 避免 这 种 不 可 能 性 ， 我 们 对 样 例 序列 
做 出 更 多 假设 一 一 定理 21. 16 的 界 只 有 在 替代 损失 的 累积 >， fw ) 不 太 大 的 情况 下 才 


有 意义 。 


21.5 小 结 

在 本 章 我 们 研究 了 在 线 学 习 模 型 。 许 多 在 PAC 模型 中 推导 出 来 的 结果 在 在 线 学 习 模 
型 中 都 有 相似 的 对 应 。 首 先 ， 我 们 介绍 了 一 个 组 合 的 维度 ， 即 Littlestone 维 ， 来 刻画 在 线 
可 学 习性 。 为 了 证 明 这 一 点 ， 我 们 介绍 了 (可 实现 情况 下 的 )SOA 算法 和 (不 可 实现 情况 下 
的 ) 加 权 投票 算法 。 同 时 研究 了 在 线 凸 优化 问题 ， 并 且 证 明了 ， 只 要 损失 图 数 是 凸 的 、 有 具 
有 利 普 希 茨 性 的 ， 则 在 线 梯 度 下 降 算法 是 成 功 的 学 习 算 法 。 最 后 作为 在 线 梯度 下 降 和 替代 
凸 损失 函数 的 结合 ， 我 们 介绍 了 在 线 的 感知 器 算法 。 


21.6 文献 评注 


标准 最 优化 算法 是 从 Littlestone(1988) 的 基础 工作 推导 得 出 的 。 对 不 可 实现 情况 的 推 
广 ， 以 及 其 他 变 式 包括 基于 间隔 的 Littlestone 维 ， 由 Ben-David 等 人 (2009) 提 出 。 除 了 识 
别 之 外 ， 在 线 可 学 习性 的 描绘 由 Abernethy、Bartlett、Rakhlin & Tewari (2008), Rakh- 
lin, Sridharan 及 Tewari(2010), Daniely 等 人 (2011) 得 到 。 加 权 投 票 算法 由 Littlestone、 
warmuth(1994) 和 Vovk(1990) 提 出 。 

在 线 凸 优化 的 概念 由 Zinkevich(2003) 提出， 但 是 这 一 系列 出 现 于 早 些 年 的 Gordon 
(1999) 。 感 知 器 则 要 追溯 到 Rosenblatt(1958) 。 可 实现 情况 (包括 间隔 假设 ) 的 分 析出 现在 
Agmon(1954), Minsky 和 Papert(1969) 。Freund 和 Schapire(1999) 基 于 可 实现 情况 的 归 
约 ， 展 示 了 不 可 实现 的 情况 下 的 平方 合 页 误差 的 分 析 。 不 可 实现 情况 下 的 合 页 误差 的 直接 
分 析 由 Gentile(2003) 给 出 。 

更 多 的 信息 我 们 推荐 阅读 Cesa-Bianchi 和 Lugosi(2006) 以 及 Shalev-Shwartz(2011) 的 
BYE 


21.7 练习 


21. 1 PHRIRiSH APA ES, (879 — BOER IIL | 五 | 一 1 个 错误 。 
21.2 寻找 假设 集 XK 和 一 个 样本 序列 ， 使 得 二 分 算法 的 误差 界 是 紧 的 。 
21.3 & d2, X=(1, ++, d}, H=(h:j€ld]}, BPA) =ils WA Mining (H) 
(也 就 是 说 ， 推 导 其 下 界 和 上 界 ， 然 后 证 明 二 者 相等 ) 。 
21.4 倍增 技巧 : 
定理 21. 15 中 ， 参 数 7 取决 于 时 间 范 围 工 。 在 这 个 练习 中 ， 我 们 介绍 如 何 通过 
一 个 简单 的 技巧 解除 这 种 依赖 关系 。 
考虑 缺憾 度 的 界 形 如 a VT 的 算法 ,但 是 其 参数 需要 关于 工 的 知识 。 倍 增 技 巧 
如 下 所 述 ， 它 允许 我 们 转化 这 样 的 算法 为 不 需要 知道 时 间 范 围 的 算法 。 其 思路 是 分 
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割 时 间 为 大 小 递增 的 时 期 ， 并 且 在 每 个 时 期 上 运行 原 算法 。 


倍增 技巧 
输入 : 参数 依赖 时 间 范 围 的 算法 A 


对 于 m= 一 0，1，2，… 
在 2 个 回合 上 运行 A， f= 2" , vee, gin 7 





证 明 ， 如 果 A 在 2” 回合 中 每 个 时 期 的 缺憾 度 至 多 为 a V2”"， 则 总 的 缺憾 度 至 多 为 

V2 

pT 
在 线 到 批 处 理 的 转化 : 在 这 个 练习 中 ， 我 们 论证 成 功 的 在 线 学 习 算 法 如 何 用 于 推导 
成 功 的 PAC JAR. 
考虑 一 个 二 值 分 类 的 PAC 学 习 问 题 ， 其 实例 域 为 ,假设 集 为 XX。 假设 存在 一 
个 在 线 学 习 算 法 A， 其 误差 界 MA (4) 二 oo。 考虑 在 荆 个 样本 的 序列 上 运行 该 算法 ， 
样本 独立 同 分 布地 采样 于 实例 空间 的 分 布 D， 并 且 被 h* CHE. BEERA 
合 t， 算 法 的 预测 基于 假设 hh: X—>{0, 1}, 证明: 
E[ Lp (h,)] < Ma? 
-D\A,) |S T 


其 中 ， 期 望 是 对 实例 的 随机 选择 和 [Tj] 上 服从 均匀 分 布 的 + 的 随机 选择 同时 求 取 的 ， 
提示 : 采用 定理 14. 8 的 证 明 过 程 中 相似 的 论据 。 
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聚 类 





聚 类 是 一 种 运用 广泛 的 探索 性 数据 分 析 技 术 。 纵 观 所 有 的 学 科 ， 从 社会 学 到 生物 学 再 
到 计算 机 科学 ， 人 们 对 数据 产生 第 一 直觉 往往 是 通过 对 数据 进行 有 意义 的 分 组 。 例 如 ， 计 
算 机 生物 学 家 根据 在 不 同 实验 中 基因 表达 的 相似 性 对 基因 进行 聚 类 ; 零售 商 根据 顾客 概况 
对 客户 聚 类 ， 来 定向 进行 市 场 营销 ; 天 文学 家 根据 星星 的 空间 距离 对 其 聚 类 。 

很 自然 ， 首 先 需要 和 弄 清 聚 类 是 什么 ? 直观 上 讲 ， 聚 类 是 将 对 象 进 行 分 组 的 一 项 任务 ， 
使 相似 的 对 象 归 为 一 类 ， 不 相似 的 对 象 归 为 不 同类 。 很 明显 ， 这 种 描述 是 非常 模糊 而 且 不 
准确 的 。 然 而 令 人 惊奇 的 是 ， 很 难 提出 一 种 更 为 严格 的 定义 。 

造成 这 种 困难 的 原因 有 很 多 。 一 个 最 基本 的 问题 是 上 述 提 及 的 两 个 目标 在 很 多 情况 下 
是 互相 冲突 的 。 从 数学 上 讲 ， 虽 然 聚 类 共享 具有 等 价 关 系 甚 至 传递 关系 ， 但 是 相似 性 (或 
距离 ) 不 具有 传递 关系 。 具体 而 言 ， 假定 有 一 对 象 序列 ， Tis “9 Lms Ti 与 其 邻 元 素 却 -1 
和 zi 非常 相似 ， 但 是 2. 和 zw 非常 不 相似 。 如 果 认 定 不 论 什 么 时 候 ， 相 似 的 两 个 元 素 必 
须 在 相同 的 聚 类 中 ， 那 么 我 们 要 将 这 一 序列 的 所 有 元 素 放 在 同一 个 聚 类 。 奋 如此， 不 相似 
的 元 素 zx 和 zw 将 共享 同一 聚 类 ， 因 此 违背 第 二 条 要 求 。 

为 了 进一步 说 明 ， 假 定 我 们 希望 将 下 图 中 的 点 聚 为 两 类 。 


-a 


一 类 聚 类 算法 强调 不 要 将 紧邻 的 点 分 离开 来 (例如 ， 将 在 22. 1 节 中 讲述 的 单 链接 算 
法 )， 这 类 算法 会 将 这 种 输入 划分 成 两 条 平行 线 : 


与 此 相反 ， 必 一 类 聚 类 算法 强调 同一 聚 类 的 点 彼此 不 能 远离 (例如 ， 将 在 22. 1 节 中 讲述 的 
2 -均值 算法 )， 这 类 算法 会 用 一 条 垂直 的 线 将 输入 分 为 左右 两 部 分 : 


刃 一 个 基本 问题 是 聚 类 缺乏 实际 情况 ， 这 是 无 监督 学 习 的 共同 问题 。 本 书 到 目前 为 
止 ， 我 们 主要 处 理 的 是 监督 学 习 ( 例 如 ， 从 已 标记 的 训练 数据 中 学 习 一 个 分 类 器 ) 。 监 督学 
习 的 目标 很 明确 一 一 我 们 希望 学 到 一 个 分 类 器 ， 使 之 预测 未 来 样本 的 标号 尽 可 能 准确 。 更 
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重要 的 是 ， 监 督学 习 可 以 用 已 标注 数据 计算 经 验 风 险 来 评估 学 习 是 否 成 功 或 假设 的 风险 。 
相反 ， 聚 类 是 一 种 无 监督 学 习 问 题 ; 即 我 们 不 预测 标号 。 我 们 希望 将 数据 进行 有 意义 的 整 
合 。 因 此 ， 对 于 聚 类 ， 并 没有 明确 的 成 功 评 佑 过程。 事实 上 ， 即 使 已 知 数据 分 布 的 全 部 知 
识 ， 我 们 也 并 不 清楚 什么 是 数据 的 正确 聚 类 ， 或 者 如 何 评 佑 聚 类 效 采 。 

如 下 图 所 示 ， 考 虑 RR 上 的 点 集 : 


> 
o +8 e 
e 4,8 o_o 
[时 @ @ 6 @ 
& 外 ee 
(JE) o 0 0 0 © 
e ee 起 三 
ee (RR 
D o ê ee 
e e° se oro o 
r 
ma 700,08. 
"> -a 
o_o @@ee. 
ee e o9 o es 
e eoe e eo ò è 
o_o o o o 
e e 9 o (JE De 
bea 909 
o o 





这 种 现象 不 是 人 为 设 定 的 ， 而 是 确实 会 出 现在 实际 应 用 中 。 一 个 给 定 的 对 象 集 合 ， 可 以 有 
多 种 有 意义 的 划分 方式 。 这 可 能 是 因为 对 象 间 的 距离 (或 相似 性 ) 有 多 种 隐 式 的 定义 ， 例 
如 ， 将 演讲 者 的 录音 根据 演讲 者 的 口音 聚 类 或 根据 内 容 聚 类 ， 将 影评 根据 影片 主题 聚 类 或 
根据 评论 情感 聚 类 ， 将 图 画 根据 主题 聚 类 或 根据 类 型 聚 类 ， 等 等 。 

总 而 言 之 ， 给 定 一 个 数据 集 ， 有 多 种 不 同 的 聚 类 解决 方案 ， 因 此 多 种 聚 类 算法 ， 对 相 
同 输入 数据 ,产生 的 聚 类 存在 很 大 差异 。 


一 种 聚 类 模型 

聚 类 任务 随 着 输入 类 型 和 期 望 输出 类 型 的 变化 而 改变 。 有 具体 而 言 ， 我 们 会 重点 关注 下 
述 情形 : 

fi AX Jue SEX AEP SPR. OB, PR ds XXR 是 对 称 的 ， 对 所 有 的 ce CX 
Æ dl, x)=0, MH- WAWE HATER. FER eR RCT WPA PRR. FADE 
PAL s: 七 XXX- 一 L0，1 是 对 称 的 ， 并 且 对 所 有 的 zxEX 满 足 sCz，z) 王 1。 此 外 ， 一 些 聚 类 
算法 需要 指定 输入 参数 &( 决 定 聚 类 的 数目 ) 。 

输出 一 一 域 集 合 志 的 一 种 划分 。 即 ，C= (CI ，…，C)， 其 中 恒 和 C;: =X, J BOE 
AW iA 有 Ci[f1C 王 名。 一 些 情况 中 ， 限 类 是 “柔软 的 ”"， 即 将 t 按 概率 形式 划分 到 不 同 
的 聚 类 ， 对 定义 域内 的 点 ECN 输出 一 个 回 量 (2 CHD) ys Pi lZ)) 。 其 中 p:(x)=P| x€ 
Cj 是 xz 属于 类 C; 的 概率 。 态 一 种 可 能 的 输出 形式 是 聚 类 系统 树 图 (dendrogram， 来 源 于 
希 脂 语 ，dengron 二 tree，gramma 一 drawing)， 这 是 一 种 域 子 集 的 分 层 树 ， 其 叶子 节点 对 
应 单元 素 集 ， 根 节点 表示 全 域 。 我 们 会 在 下 文中 详 述 。 

下 面 ， 我 们 总 结 一 些 最 常用 的 聚 类 方法 ， 在 本 章 的 最 后 一 节 ， 我 们 会 在 更 高 层次 上 讨 
论 聚 类 是 什么 这 一 问题 。 
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22.1 基于 链接 的 聚 类 算法 

基于 链接 的 聚 类 算法 可 能 是 最 简单 最 直接 的 聚 类 形式 。 这 类 算法 一 般 需 要 一 系列 循 
环 。 这 类 算法 从 一 些 琐碎 的 聚 类 开始 ， 将 每 个 数据 点 作为 一 个 单 点 聚 类 。 然 后 ， 这 类 算法 
循环 将 前 一 阶段 中 最 近 的 两 个 聚 类 合并 。 因 此 ， 聚 类 数目 随 着 循环 过 程 逐 渐 减 少 。 如 采 一 
直 进 行 下 去 ， 这 类 算法 会 将 所 有 的 定义 域 数 据点 归 为 一 个 大 类 。 为 了 将 该 类 算法 定义 清 
楚 ， 需 要 确定 两 个 参数 。 第 一 ， 我 们 需要 决定 怎样 测量 (或 定义 ) 类 间距 离 ， 第 二 ， 我 们 需 
要 确定 什么 时 候 终 止 合并 。 聚 类 算法 的 输入 需要 指点 两 个 点 之 间 的 距离 函数 4。 有 许多 方 
法 可 以 将 d 进行 扩展 ， 来 测量 两 个 聚 类 或 域 子 集 之 间 的 距离 。 最 常用 的 方法 有 

1. 单 链接 聚 类 ， 类 间距 离 定 义 为 两 类 元 素 间 的 最 短 距 离 ， 即 ， 


D(A,B) = min{d(x,y):2 E Asy € B} 
2. 平均 链接 聚 类 ， 类 间距 离 定义 为 两 类 元 素 间 距离 的 平均 值 ， 即 ， 


def 


D(A,B) = Tr Ti rg) 
EAyEB 
3. 最 大 链接 聚 类 ， 类 则 距离 定义 为 两 类 元 素 间 的 最 大 距离 ， 即 ， 


D(A,B) = max(d(z,y):2 E A,y € B} 
基于 链接 的 聚 类 算法 是 凝聚 式 的 ， 一 开始 ， 数 据 完 全 是 碎片 化 的 ， 然 后 逐步 构建 越 来 越 大 
的 聚 类 。 如 果 没 有 加 入 停止 规则 ， 这 类 算法 的 结果 可 以 用 聚 类 系统 树 图 来 描述 : 即 ， 一 个 
域 子 集 构 成 的 树 ， 其 叶子 节点 是 单元 素 集 ， 根 节点 为 人 全域。 例如， 如 下 左 图 所 示 ， 输 入 元 
素 是 二 (la,，6b，c，d，e}CR ， 采 用 的 距离 水 数 是 欧 几 里 得 距离 ， 如 下 右 图 为 生成 的 系统 
WE: 


fa, b,c, d, e} 
@a {b, c,d, e} 
ee / 
@d {b,c} {d, e} 
P /\ F5 
@b {a} {b} {c} {d} {e} 


单 链 接 算法 和 Kruskal 算法 很 相似 ， 目 的 是 在 加 权 图 上 找到 一 个 最 小 生成 树 。 试 想 一 
幅 图 ， 图 的 顶点 是 起 中 元 素 ， 边 (z，y) 的 权重 是 距离 4(x，y)。 每 次 单 链 接 算法 将 两 个 聚 
类 进行 合并 ， 相 当 于 在 上 图 中 添加 一 条 边 。 单 链接 算法 得 到 的 边 集 合 和 最 小 生成 树 是 一 
致 的 。 

如 打 想 将 一 个 系统 树 图 转化 为 一 个 空间 ( 聚 类 ) 划 分 ， 则 需要 设 定 停止 准则 。 常 用 的 停 
止 准则 包括 : 

© 固定 类 的 数量 一 一 固定 参数 &， 当 聚 类 数目 为 & 时 停止 聚 类 。 

o 设 定 距离 上 限 一 一 固定 ER; 。 当 所 有 的 组 间距 离 都 超过 -~ 时 停止 聚 类 。 我 们 也 可 

以 设 定 ”为 wamax(td(z，y):z，yE4)， 其 中 ws<1。 这 种 情况 下 ， 停 止 准 则 被 称 为 
“折合 距离 上 限 ”。 


22.2 k 均值 算法 和 其 他 代价 最 小 聚 类 
另 一 种 流行 的 聚 类 算法 是 首先 对 可 能 的 聚 类 定义 一 个 代价 函数 ， 聚 类 算法 的 目标 是 
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寻找 一 种 使 代价 最 小 的 划分 。 在 这 类 范例 中 ， 聚 类 任务 转化 为 一 个 优化 问题 。 目 标 函 数 
AMR ACY, d) MIRAE C 二 (Cl ，…*，Ci) 映 射 到 正 实数 的 函数 。 给 定 一 个 这 样 
的 目标 函数 ， 我 们 将 其 表示 为 G， 对 于 给 定 的 一 个 输入 (人 ，d)， 聚 类 算法 的 目标 被 定义 
为 寻找 一 种 聚 类 CEGC., d, QO) 最小。 为 了 达到 上 述 目 标 ， 需 要 运用 一 些 合适 的 搜 
RAK. 

事实 证 明 ， 大 多 数 的 聚 类 优化 问题 是 NP 难 问题 ， 甚 至 有 些 问题 的 近似 也 是 NP 难 问 
题 。 因 此 ， 当 人 们 谈论 均值 算法 ,一般 是 指 一 些 特殊 的 近似 算法 ， 而 不 是 最 小 化 问题 的 
损失 因数 或 精确 解 。 

许多 常见 的 目标 函数 要 求 指 定 参 数 聚 类 数目 &A。 实 际 上 ， 这 通常 需要 算法 的 使 用 者 根 
据 给 定 的 聚 类 问题 来 选 定 & 值 。 

下 面 ， 我 们 会 介绍 几 种 最 篆 用 的 目标 因数 。 

k 均值 算法 目标 函数 是 最 流行 的 聚 类 目标 。 在 & 均 值 算法 中 ， 数 据 被 划分 到 不 相交 的 
集合 C1，…，CG 中 ， 其 中 每 个 C; 由 其 中 心 点 yy; 代表 。 假 定 输入 集 志 被 徐 入 到 更 广 的 测度 
空间 (X"'，qd) (因此 XCX')， 中 心 点 是 XY' 的 元 素 。 上 均值 的 目标 函数 测量 中 各 点 与 其 对 应 
聚 类 中 心 点 的 平方 距离 。C; 中 心 点 被 定义 为 

Ki(Ci) = argmin Sd asp) 
p ZE Ci 
那么 , & 均 值 算法 的 目标 是 
Grmens( (Xd), (Cy °°, GD = 9) Dda G 
i=] x€C, 
也 可 以 写成 如 下 形式 
(De CE ds ys = N min ,2 > 24 (Esp)? (22. 1) 

k 均值 算法 的 目标 函数 目的 明确 ， 例 如 ， 在 数字 通讯 任务 中 ， 可 以 将 七 视 为 传输 信和 号 
的 集合 。 尽 管 幸 可 能 是 一 个 包含 实 值 向 量 的 大 集合 ， 数 字 传 输 只 人 允许 对 每 个 信号 每 次 传输 
有 限 位 。 在 这 种 限制 下 ， 实 现 较 好 传输 的 一 种 方法 是 将 七 的 每 个 成 员 用 有 限 集 yi ，…， 
pe CX 中 一 个 “近似 的 ”成 员 代 替 。& 均值 算法 的 目标 可 以 看 成 这 种 传输 表示 方案 失真 程 
度 的 一 种 测量 。 

k 中 心 点 算法 目标 函数 和 A& 均值 算法 的 目标 函数 相似 ， 不 同 处 是 & 中 心 点 算法 要 求 聚 
类 中 心 点 是 输入 集 的 成 员 。 目 标 函 数 定 义 为 


Ci 一 min, D Za (tm 
a Nh 


k 中 位 数 算法 目标 函数 和 上 中 心 点 算法 的 目标 函数 十 分 相似 ， 不 同 处 是 & 中 位 数 算法 
中 ， 数 据点 和 聚 类 中 心 点 的 “失真 ”是 用 距离 测量 ， ia 


Gronn Ced) 5 Cr G = min SEd 


Mj? i=l zE C; 


一 个 使 用 该 目标 函数 的 例子 是 工厂 选 址 问题 。 考虑 _ 项 任务 ， 该 任务 要 求 在 城市 设 定 
k 个 消防 站 。 在 该 例 中 可 以 将 房屋 作为 数据 点 ， 目 标 是 设 定位 置 使 得 房屋 与 其 最 近 消防 站 
距离 平均 值 最 小 。 

前 面 的 例子 可 以 被 统称 为 基于 中 心 的 目标 。 这 类 聚 类 问题 的 解决 方案 ， 由 一 系列 中 心 
点 决定 ， 聚 类 算法 将 每 个 实例 分 配给 与 之 最 近 的 类 中 心 。 更 一 般 的 情况 ， 基 于 中 心 的 目标 
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由 一 些 单调 函数 RR 决定 ， 并 定义 
GARD 0 = min D Drep 


oa M- i=1 xEG. 
其 中 x*' 或 者 为 + 或 者 为 t+ 的 超 集 。 
有 一 些 目标 函数 并 不 是 基于 中 心 的 。 例 如 类 内 距离 总 和 (SOD) 
CD 


i=l TryE Ci 


和 我 们 将 在 22. 3 节 介 绍 的 最 小 割 目标 都 不 是 基于 中 心 的 目标 。 


k 均值 算法 


kk 均值 目标 函数 在 实际 的 聚 类 应 用 中 很 常见 。 然 而 ， 事 实证 明 寻 找 上 均值 (k-means) 算 法 
的 最 优 解 通常 是 计算 不 可 行 的 (问题 是 NP 难 的 ， 其 至 接近 常数 近似 解 的 求解 是 NP 难 的 )。 
通常 用 下 面 这 种 简单 的 迭代 算法 作为 替代 方法 ， 多 数 情 况 下 ,上 均值 聚 类 指 的 是 这 种 算法 的 
结果 而 不 是 最 小 化 & 均 值 目标 函数 的 结果 。 我 们 以 欧 几 里 得 距离 4(x，y) 二 上 x 一 yy 为 例 描述 


k 均值 
输入 : XCR"; 聚 类 数目 上 
初始 化 : 随机 初始 化 中 心 点 s ts pa 
重复 直到 收敛 


Vi€ [kj| 设 定 C={xEX: 1 二 argmin; |x—p; | } 
(配合 使 用 任意 方式 的 中 断 ) 


ViE [kJ] 更 新 1 一 TGT DI x 
t xEC, 





引 理 22.1 上 均值 算法 的 每 次 迭代 都 不 会 使 均值 目标 函数 增加 (由 公式 (22. 1) 给 出 )。 
WEAH 为 了 数学 表示 简单 ， 我 们 使 用 GCC, , Ci ) 来 表示 上 均值 算法 目标 ， Bll, 
k 
GCC, aC) — min a lx —p; |? 3 (22. 2) 


Hy oop, ER i=1 xEC, 
ZH oo y x 1 » 。 S 
很 容易 定义 mC) =TET >) x, WCC) =argminer X lx- yl. Alt. RIEZ k 
tl xEC., xEC, 
均值 的 目标 为 


GIG 50,3 = > 2 lx — (Cp) |? (22. 3) 


i=] x€ 


考虑 上 均值 算法 的 第 t 次 迭代 时 的 更 新 过 程 。 BOP, oa, ”是 前 一 次 的 划分 情况 ， 
SBP =W CP), SCP, e, Ch 为 第 t 次 迭代 时 的 划分 。 使 用 公式 (22. 2) 给 出 的 目 
ERREX., RITA 


GCP pee PORDI 2 lx — pot |? (22. 4) 


i=] xec! 


除 此 之 外 ， 新 划分 (Ci? ，…，C4? ) 的 定义 意味 着 在 所 有 可 能 的 划分 (Cl ，…，C) 中 ， 新 划 
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分 使 >) >) leset” I 最 小 。 因 此 ， 
i=1 x€G 


k k 

SS kawa >» kopr (22. 5) 

gms] rect? i=] EC 
利用 公式 (22. 3), 5) 等 号 右边 部 分 等 于 GCC ”，…，C8  )。 将 这 与 公式 
(22. 4) 和 公式 (22.5) 结 合 ， 得 到 GCC, ，…，C2 ) 委 GCC ，…，C4 > )， 进 而 得 到 我 
们 的 证 明 。 E 


虽然 上 述 引 理 告诉 我 们 & 均 值 目标 是 单调 非 增 的 ， 然 而 对 于 均值 算法 达到 收敛 的 和 迭 
代 次 数 并 没有 给 出 保证 。 此 外 ， 算 法 给 出 的 均值 目标 消 数 输出 值 和 目标 函数 的 最 小 可 能 
值 之 差 ， 并 没有 非 平凡 下 界 。 实 际 上 ,均值 可 能 会 收敛 到 局 部 最 小 值 (练习 22.2)。 为 了 
提高 均值 的 结果 ， 通常 使 用 不 同 的 随机 初始 中 心 点 ， 将 该 程序 运行 多 次 (比如 ， 输 入 数 
据 的 任意 一 点 都 可 以 选 为 初始 中 心 点 )。 


“22.3” 谱 聚 类 


表示 数据 集 计 二 (x1 ，…，xm}) 中 点 与 点 关系 的 常用 便捷 方式 是 相似 图 ; 每 个 顶点 代表 
一 个 数据 点 x;， 两 个 顶点 由 一 条 边 相 连 ， 边 的 权重 对 应 数据 点 之 间 的 相似 性 ，W';,; 二 s(xz;， 
x;)， 其 中 WER™”*。 例 如 ， 我 们 可 以 设 W;,;=exp(—d lri x) /P), 其 中 4d(。，。，…) 为 
FAKA o 为 参数 。 聚 类 问题 现在 可 以 表述 如 下 : 我 们 希望 找到 一 种 图 的 划分 ， 使 不 同 
组 的 组 间 边 有 较 低 权重 ,使 相同 组 的 组 内 边 有 较 高 权重 。 

在 前 述 的 聚 类 目标 中 ， 我 们 给 出 了 聚 类 的 一 种 直观 定义 一 一 确保 同类 中 的 点 相似 。 我 
们 现在 给 出 男 一 种 要 求 


22.3.1 图 割 


给 定 一 个 有 相似 和 矩阵 W 表示 的 图 ， 对 图 进行 划分 的 最 简单 和 最 直接 方式 是 求解 最 小 
割 问题 ， 选取 划分 Ci ae C: 使 下 列 目标 最 小 化 


k 
ati C= >> D TW 


i=] rEC;sẸC; 

Xf k= 2 的 情况 ， 最 小 割 问题 可 以 有 效 地 解决 。 但 是 ， 实 际 中 经 常 不 能 实现 满意 的 划 
分 。 很 多 情况 中 会 出 现 ， 最 小 割 方法 简单 地 将 单个 顶点 与 其 他 顶点 分 离开 来 。 当 然 ， 这 不 
是 我 们 想 达 到 的 聚 类 效果 ， 因 为 聚 类 应 当 是 合理 地 将 一 组 点 归 为 一 类 。 

对 这 种 问题 ， 有 多 种 解决 方案 。 最 简单 的 方式 是 将 分 割 正 则 化 ， 这 里 定义 正则 化 后 的 
最 小 割 目 标 为 : 





RatioCut(Cy ,***,C,) = 5 TET ED W, 
i=] i | rEC EC, 


前 面 的 目标 假设 聚 类 不 是 太 小 的 时 候 取得 更 小 的 值 。 不 幸 的 是 ， 引 入 这 项 平衡 让 问题 
变 得 难以 计算 。 谱 聚 类 是 一 种 最 小 比例 割 的 松弛 解法 。 


22.3.2 图 拉 普 拉 斯 与 松弛 图 割 算法 


谱 聚 类 的 主要 数学 对 象 是 图 拉 普 拉 斯 矩阵 。 在 文献 中 有 多 种 图 拉 普 拉 斯 定义 ， 下 面 我 
们 介绍 一 种 最 流行 的 定义 。 
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定义 22. 2( 非 归 一 化 的 图 拉 普 拉 斯 ) 非 归 一 化 的 图 拉 普 拉 斯 是 一 个 mXm 的 矩阵 了 一 
D 一 WW， 其 中 总 是 一 个 对 角 阵 ，D;; 二 >) Wij. EE DARE, 
j=l 


下 面 的 引 理 强调 了 比例 割 和 拉 普 拉 斯 矩阵 之 间 的 关系 。 
引 理 22.3 4C,, 5 G 为 一 个 聚 类 ， 五 E 取 … 为 一 个 矩阵 ， 则 


Fs; a gero 
H 和 矩阵 的 列 是 彼此 正 交 的 ， 并 且 
RatioCut(C ,*…,C) = trace(H' LH) 
证 明 令 h，…，hi 为 昌 的 列 。 从 定义 中 我 们 已 知 这 些 向 量 是 彼此 正 交 的 。 接 下 来 ， 


按照 标准 代数 操作 ， 可 以 得 出 trace H'LH)= >, hiLh;， 对 于 任意 的 问 量 v RNA 


一 = (7È D. io, 2D v0 Wns + >D, vt )= 7 We Co, = 3)" 

将 该 式 与 v=h 结合 ， 注意 当 且 仅 当 rec,, s€C 时 (y=: > 不 为 零 ， 反 过 来 ， 我 们 
得 到 

T —_ 4d 

h: Lh; = 全 [这 Wn 国 

因此 ， 为 了 最 小 化 比例 割 ， 我 们 可 以 寻找 一 个 矩阵 瑟 ， 其 列 是 正 交 的 ，HHi;,j 或 为 0 

或 为 1/V1C;1。 不幸 的 是 ， 这 是 一 个 整数 规划 问题 ， 我 们 不 能 有 效 求 解 。 作 为 替代 ， 
我 们 松弛 后 一 项 的 要 求 ， 寻 找 一 个 正 交 和 矩阵 HER", &/ME trace(H'LH)。 这 类 问题 
的 一 种 有 效 解 决 途径 是 令 和 矩阵 U 的 列 为 工 和 抢 阵 最 小 的 & 个 特征 值 对 应 的 特征 回 量 ， 如 我 
们 将 要 在 下 一 章 看 到 的 PCA 部 分 (特别 是 定理 23. 2 的 证 明 )。 这 种 算法 称 作 非 归 一 化 的 
谱 聚 类 。 


22. 3.3” 非 归 一 化 的 谱 聚 类 


非 归 一 化 的 谱 聚 类 


mA: WER”"";: 聚 类 数目 
初始 化 : 计算 非 归 一 化 的 图 拉 普 拉 斯 二 
令 EUER" HFA L BER) Mk 个 特征 值 对 应 的 特征 向 量 


Ç vrs ty Um AU 的 列 
d A k 均值 算法 对 zi 9 **%s Um RF 
输出 : k 均值 算法 输出 聚 类 Ci， sce ‘or 





详 聚 类 算法 首先 寻找 矩阵 H, HIA RREA Bb a k MRP H REE e 
Ht. UR H 的 每 一 行 作为 一 个 数据 点 。 根 据 图 拉 普 拉 斯 性 质 ， 这 种 表示 是 有 效 的 。 
在 许多 情况 下 ， 这 种 表示 方式 的 改变 使 得 即使 采用 简单 的 均值 算法 同样 能 无 缝 地 找到 合 
理 聚 类 。 和 直观 上 讲 ， 如 果 和 矩阵 H 按照 引 理 22. 3 形式 进行 定义 ， 在 新 表示 中 每 个 点 是 一 个 
指示 四 量 ， 那 么 上 只 有 元 素 与 其 所 属 类 对 应 时 ， 向 量 值 不 为 零 。 
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22.4 信息 瓶颈 ” | 

= Mgh Tishby, Pereira 和 Bialek 提出 的 聚 类 技术 。 其 概念 来 源 于 信息 论 。 
为 了 举例 说 明 该 方法 ， 考 虑 文本 聚 类 问题 ， 每 个 文本 表示 为 一 个 词 袋 ;， 即 ， 每 个 文档 都 是 
一 个 向 量 x= (0, 1)", Hn 是 字典 的 长 度 ，z; 二 1 当 且 仅 当 第 i 个 词 在 文档 中 出 现 。 给 
定 一 个 有 m 个 文档 的 集合 ， 我 们 可 以 将 mx 个 文档 的 词 袋 表示 理解 为 随机 变量 zz 的 联合 概 
率 分 布 ， 指 示 文 档 的 身份 (因此 在 [Lm] 中 取 值 )， 以 及 一 个 随机 变量 y， 指 示 单 词 在 词典 中 
的 身份 (因此 在 Lnj 中 取 值 )。 

根据 这 种 解释 ， 信 息 瓶 颈 是 指 将 聚 类 属性 表示 为 另 一 个 随机 变量 C， 在 Lkj] 中 取 值 (其 
中 同样 是 由 方法 确定 ) 。 一 旦 将 zx、y，C 表述 为 随机 变量 ， 我 们 可 以 使 用 信息 论 中 的 方 
法 来 表示 聚 类 目标 。 信 息 瓶 颈 的 目标 是 

min Itr; C) = BICC yy) 

其 中 IC: , + ) 是 两 个 随机 变量 的 互信 息 ? ，8 是 参数 ， 在 每 个 点 分 属 聚 类 的 所 有 可 能 概率 
分 布 中 求 取 极 小 值 。 直 观 上 讲 ， 我 们 希望 达到 两 个 矛盾 的 目标 。 一 方面 ， 我 们 希望 文档 属 
性 和 聚 类 属性 的 互信 息 尽 可 能 小 。 这 反映 了 我 们 希望 对 原 数 据 进 行 强压 缩 。 为 一 方面 ， 我 
们 和 硕 望 聚 类 变量 和 词 属 性 的 互信 息 尽 可 能 大 ， 这 反映 了 保留 文档 关联 信息 (用 词 在 文档 中 
出 现 来 表示 ) 的 目标 。 将 参数 统计 中 的 最 小 充分 统计 量 推广 到 了 任意 分 布 。 

解 信 息 瓶 颈 准则 下 的 最 优化 问题 通 稼 是 非常 困难 的 。 有 些 解 决 方法 类 似 于 将 要 在 第 24 
章 讨论 的 EM 准则 。 


22.5 聚 类 的 进 阶 观点 


到 目前 为 止 ， 我 们 罗列 了 许多 有 用 的 聚 类 算法 。 然 而 ， 还 有 一 些 基本 问题 尚未 解决 。 
首先 也 是 最 重要 的 ， 聚 类 是 什么 ?” 聚 类 算法 和 输入 一 个 空间 输出 一 个 空间 分 布 的 任意 函数 
的 区 别 是 什么 ? 聚 类 有 没有 一 些 基 本 性 质 是 独立 于 具体 算法 或 任务 的 ? 

回答 这 些 问题 的 一 种 方式 是 公理 化 方法 。 很 多 人 尝试 对 聚 类 提出 一 个 公理 化 的 定义 。 
让 我 们 展示 Kleinberg(2003) 给 出 的 尝试 方法 ，。 

考虑 一 个 聚 类 因数 下， 将 任意 有 限 域 七 及 不 相似 函数 d 作为 输入 ， 返 回 t 的 一 个 划分 。 

考虑 这 类 哺 数 的 三 种 特性 : 

尺度 不 变性 (SI) ”对 任意 的 域 集 志 ， 不 相似 函数 &， 以 及 任意 的 a>0, FRZ: 


F(X, d)=F(AX, ad) H-P (lad) (x, nelle, yd)» 

丰富 性 (Ri) 对 任意 的 有 限 集 直 和 划分 C=C, =, C.) (划分 到 非 空子 集 )， 存 在 多 
种 不 相似 函数 d 使 得 F(X,， d)=C, 

一 致 性 (Co) 如果 4d 和 d 都 是 上 的 不 相似 函数 ， 对 任 一 +，yE€E， 根据 FY, d), 
如 果 z，y 属于 同一 类 ， 则 d(x，y) 二 d(x，y)，x，y 属于 不 同类 , Wd’, yd, y), 
MA FY, d)=FW, d’). 


© 给 定 (z，C) 上 的 概率 函数 p，I(z; O= 31D) plas bloe (Pes oc ) ， 其 中 求 和 部 分 是 对 所 有 可 能 的 > 
a b 
MC. 


O 充分 统计 量 是 关于 输入 数据 的 一 个 函数 ， 充 分 性 是 对 统计 模型 及 相关 的 未 知 参数 而 言 ， 表 示 “ 没 有 其 他 的 
统计 量 可 以 提供 样本 和 参数 的 额外 信息 ”。 例 如 ， 如 果 我 们 假定 一 个 变量 呈正 态 分 布 ， 方 差 为 单位 方差 ， 期 
望 未 知 ， 则 平均 值 函 数 是 一 个 充分 统计 量 。 


B22¢G K 类 209 





尺度 不 变性 是 一 种 非常 自然 的 要 求 一 一 如 果 聚 类 函数 输出 的 结果 依赖 于 测量 点 之 间 的 
距离 测度 单元 ， 那 将 显得 十 分 奇怪 。 丰 富 性 要 求 主要 想 说 明 聚 类 函数 的 输出 是 由 函数 4 全 
权 决 定 ， 也 是 一 种 非常 直观 的 特征 。 一 致 性 要 求 是 和 聚 类 基本 ( 非 正 式 ) 定 义 相 关 的 要 
求 一 一 我 们 希望 相似 的 点 聚 到 一 类 ， 不 相似 的 点 分 属 不 同类 ， 因 此 共享 同类 的 点 更 相似 ， 
已 经 分 离 的 点 不 相似 ， 聚 类 函数 应 当 对 之 前 的 聚 类 决策 有 很 强 的 “支撑 ”作用 。 

然而 ，Kleinberg(2003) 已 经 给 出 了 下 述 “ 不 可 能 ”结论 : 


定理 22.4 不 存在 一 个 函数 下 同时 满足 上 述 三 种 属性 : 尺度 不 变性 ， 丰富 性 ,一 
致 性 。 

证 明 ”根据 反 证 法 ， 假 设 存在 函数 下 满足 上 述 三 种 属性 。 取 一 个 至 少 有 三 个 点 的 域 集 
xX, BEERA, FERAE di 使 得 FX, di) ={{x}:2€X}, FE d: (£78 F(X, di) # 
FCX, di) 

AaER- ， 则 对 任 一 z，yE 二 有 adz: (x, y)2dı (x, y) S d; =ad:, BIR F(X, dz). 
根据 函数 下 的 尺度 不 变 属性 ， 我 们 有 FE, da) =F, d). B— RM, KARMAR EK 
T, YEDIRAR, KFF, di) d; (x, y)>di (x, y), KAŽU F SEER H 


F(X, d)=F(8, di), REFET, RARINERK di Md: fH F(X, d) AF, di)o 


m 

要 注意 的 是 ， 在 这 三 条 属性 中 没有 “ 坏 公 理 ” 和 “ 坏 属 性 ”。 对 于 三 条 属性 中 的 每 一 
对 ， 存 在 自然 的 聚 类 函数 满足 这 对 属性 (对 于 单 链 接 聚 类 也 数 ， 读 者 仅仅 通过 设 定 不 同 的 
终止 准则 就 可 以 构建 这 样 的 例子 ) 。 另 一 方面 ，Kleinberg 给 出 结论 ， 对 于 最 小 化 基于 中 心 
点 的 目标 函数 ， 任 意 的 聚 类 算法 都 不 可 避免 地 违背 了 一 致 性 属性 (然而 ，A-sum-of-in-clus- 
ter-distances 最 小 化 聚 类 确实 满足 一 致 性 ) 。 

Kleinberg 的 “不 可 能 ”绪论 可 以 通过 改变 属性 来 规避 。 人 例如， 如果 讨 论 含 固 定数 量 
参数 的 聚 类 函数 ， 很 自然 地 将 丰富 性 改 为 &- 丰 富 性 ( 即 ， 将 域 划 分 到 & 个 子 集 是 可 以 实现 
H). k 均值 聚 类 满足 & -丰富 性 、 尺 度 不 变性 和 一 臻 性， 因此 能 够 达到 一 致 。 或 者 可 以 放 
松 一 致 性 属性 。 例 如 ， 如 果 对 任 一 类 C; EC 和 0C';EC ， 有 CSC' RA CEG 或 者 C; 门 
C')=8,， 我 们 就 说 两 个 聚 类 C=(Q, =e, Ci) 和 C = i aini. C ,) 是 兼容 的 (这 是 值得 
做 的 ， 因 为 对 每 个 系统 树 图 ， 根 据 剪 边 得 到 的 两 个 聚 类 ， 其 系统 树 图 是 兼容 的 )。“ 精 致 一 
致 性 ”是 要 求 ， 在 一 致 性 属性 的 假设 下 ， 新 聚 类 F(X, d’)MIBRAK F(X, ARRAN. 
许多 聚 类 天 数 满足 这 项 要 求 的 同时 也 满足 尺度 不 变性 和 丰富 性 。 进 一 步 ， 可 以 提出 许多 其 
他 不 同 的 、 很 直观 的 、 令 人 满意 的 并 且 已 知 一 些 聚 类 函数 满足 的 聚 类 也 数 属性 ，。 

解释 这 些 结果 的 方法 有 很 多 。 我 们 建议 将 其 视 为 没有 “理想 的 ” 聚 类 函数 。 每 个 聚 类 
天数 都 不 可 避免 地 有 一 些 “ 不 良 的 ”属性 。 给 定 一 项 任务 ， 聚 类 函数 的 选取 必须 考虑 该 任 
务 的 特定 属性 。 没 有 统一 的 聚 类 解决 方案 ， 就 像 没 有 一 种 分 类 算法 能 够 对 每 一 项 可 学 习 任 
务 都 能 学 习 ( 就 如 “没有 人 免费 午餐 ”定理 所 示 )。 和 其 他 分 类 预测 一 样 ， 聚 类 必须 考虑 特定 
任务 的 先 验 知识 。 


22.6 小 结 


聚 拓 是 一 个 无 监督 学 习 问 题 ， 希 望 将 点 集 划 分 到 “有 意义 的 ”多 个 子 集 。 我 们 给 出 了 
几 种 聚 类 手段 ， 包 括 基 于 链接 的 算法 、& 均值 家 族 、 谱 聚 类 和 信息 瓶颈 。 我 们 讨论 了 将 聚 
类 的 直观 含义 进行 形式 化 表示 的 困难 。 
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22.7 文献 评注 

k 均值 算法 有 时 也 会 被 称 为 Lloyd 算法， 根据 Stuart Lloyd 命名 ， 他 于 1957 年 提出 了 
该 算法 。 为 了 更 全 面 地 了 解 谱 聚 类 相关 知识 ， 我 们 建议 读者 去 阅读 Von Luxburg(2007) 的 
优秀 教材 。 信 息 瓶颈 方法 是 由 Tishby，Pereira 和 Bialek(1999) 提 出 。 公 理化 方法 可 以 参 
考 Ackerman 和 Ben-David(2008) 的 工作 。 


22.8 练习 


22:1 


22.4 


22.5 


k 均值 算法 的 次 优 性 : 对 任 一 参数 :二 1， 证 明 : 存在 均值 问题 的 一 个 实例 ,上 & 均 
值 算法 (可 能 ) 找 到 一 种 解决 方案 ， 使 其 & 均值 目标 至 少 为 :* OPT, HH OPT Ak 
均值 目标 的 极 小 值 。 
大 均值 算法 不 一 定 收敛 于 局 部 极 小 值 : 证 明 : & 均值 算法 可 能 收敛 于 某 点 ， 而 该 点 
并 不 是 局 部 极 小 值 。 
提示 : 假定 上 二 2， 样 本 点 为 {1，2，3，4)C 性 民 ， 并 假定 初始 化 均值 中 心 点 为 {2， 
4}; 同时 改变 C; 定义 中 的 赋值 关系 ， 将 i 分 配给 argmin; 上 x 一 山上 的 最 小 值 。 
给 定 一 测度 空间 (XY，d)， 其 中 1X1 二 co, kEN， 寻 找 一 种 划分 方式 将 守 划 归 到 CG, +, 
C:， 使 下 述 表 达 式 取得 极 小 值 
Gadi OP dy (OY = max diam(C;) 
其 中 diam(C;)=max,,<c,d (a, 2) GRBAE, WR|CG|<2, W diam(C;)=0). 
类 似 于 上 均值 算法 的 目标 函数 ， 最 小 化 &-diam 目标 是 NP 难 问题 。 幸 运 的 是 ， 
我 们 有 一 种 简单 的 近似 算法 : MEREN cer, HS m=z. HER, BK 
Vi € {2.°+,k} 47 = argmax min d (zi) 
最 后 , + 
Vie [kj,C;= {x E X:i = argmind (x > p4;)} 
证 明 : 刚才 描述 的 算法 是 2 -近似 算法 。 即 ， 如 果 我 们 将 输出 结果 用 CC ， i Ĉi 表 
示 ， 最 优 解决 方案 用 Ci ,… ,Cx 表示 ， 那 么 
人 
提示 : 考虑 点 pu+l( 换 言 之 ， 如 果 想 要 & 十 1 个 聚 类 ， 我 们 将 要 选取 的 下 一 个 中 心 
点 )。 令 7 一 minieId&(C > peri). tA PIRSA 
人 Sr 
对 于 某 个 单调 函数 f; 民 :一 R ， 在 每 个 给 定 的 输入 (4t,d)，F(t,d) 通过 最 小 化 目 
Fin PRR 


k 
GME dd KC) = min >) Df (d(asy;)) 


i=1 SEG 


ETT RA, HPA 为 或 t 的 超 集 。 我 们 将 这 类 聚 类 算法 称 为 基于 中 心 的 聚 类 。 
证 明 : 对 任 一 te 之 1， 上 一 题 中 的 k-diam 算法 不 属于 基于 中 心 的 聚 类 算法 。 
提示 : 给 定 一 个 聚 类 输入 ( 赤 ，C)， 其 中 1 兹 | 这 2， 在 世 中 的 某 些 (不 是 所 有 ) 成 员 添 
加 一 些 临 近 点 ， 考 虑 该 情况 对 A-diam 算法 和 基于 中 心 的 聚 类 算法 的 作用 是 否 相同 。 
我 们 讨论 了 聚 类 的 三 种 “特性 ?: 尺度 不 变性 、 丰 富 性 和 一 致 性 。 考 虑 单 链接 聚 类 
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算法 。 

1) 对 于 终止 准则 为 达到 固定 聚 类 数目 (任意 固定 非 零 数字 ) 的 单 链接 聚 类 算法 ， 找 
出 该 类 算法 满足 三 条 特征 中 的 哪 条 特性 。 

2) 对 于 终止 准则 为 类 内 距离 达到 上 限 ( 任 意 固定 非 零 上 限 ) 的 单 链接 聚 类 算法 ， 找 
出 该 类 算法 满足 三 条 特征 中 的 哪 条 特性 。 

3) 证 明 对 于 三 条 特性 中 的 任意 一 对 ， 都 存在 一 种 终止 准则 ， 使 单 链接 聚 类 算法 满 
足 这 两 种 特性 。 

给 定 某 个 数 &， 令 & -丰富 性 满足 如 下 条 件 : 

对 任意 的 有 限 集 志 和 4 的 任意 一 种 划分 CSC, ++, CG (划分 为 非 空子 集 )， 存 在 

一 些 X EW) 3B Bd IF, d)=C, 

证 明 ， 对 于 任意 一 个 &， 存 在 聚 类 函数 满足 三 条 特性 : 尺度 不 变性 、& -丰富 性 
和 一 致 性 。 
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降 维 是 将 高 维 数据 映射 到 低 维 空间 的 过 程 。 该 过 程 与 信息 论 中 的 (有 损 ) 压 缩 概念 密切 
相关 。 降 维 的 原因 通常 有 以 下 几 人 个。 首先 ， 高 维 数据 增加 了 运算 的 难度 。 其 次 ， 高 维 使 得 
学 习 算 法 的 泛 化 能 力 变 弱 (例如 ， 在 最 近邻 分 类 器 中 ， 样 本 复杂 度 随 着 维度 成 指数 增长 ， 
参考 第 19 章 ) 。 最 后 ， 降 维 能 够 增加 数据 的 可 读 性 ， 利 用 发 掘 数据 的 有 意义 的 结构 。 

在 本 章 ， 我 们 介绍 了 一 些 比较 流行 的 降 维 方法 。 在 这 些 方法 中 ， 降 维 是 通过 对 原始 数据 
的 线性 变换 实现 的 。 即 ， 如 果 数 据 是 & 维 的 ， 我 们 想 将 其 约 简 到 nn 维 (nd)， 则 需要 找到 一 
AMEE WER AER xW. EW 的 一 个 最 自然 的 准则 是 在 降 维 的 同时 能 够 复原 原 
始 的 数据 x。 通 常 这 是 比较 困难 的 ， 而 且 从 Wx 中 准确 复原 x 是 不 可 能 的 ( 见 练习 23.1). 

第 一 种 方法 称 之 为 主 成 分 分 析 (PCA)。 在 PCA 中 ， 降 维和 复原 都 是 通过 线性 变换 实 
现 ， 而 且 复 原 的 信号 与 原始 的 信号 保持 均 方差 最 小 。 

接 下 来 ， 我 们 介绍 如 何 利用 随机 和 矩阵 进行 降 维 。 我 们 推导 出 一 个 重要 的 引 理 ， 称 为 
“Johnson-Lindenstrauss 引 理 ?。 该 引 理 分 析 了 随机 降 维 技术 的 失真 情况 。 

最 后 ， 我 们 介绍 如 何 利 用 随机 和 矩阵 对 稀疏 向 量 进行 降 维 。 该 过 程 被 称 为 压缩 感知 。 在 
这 种 情况 下 ， 复 原 是 非 线性 的 ， 但 可 通过 线性 规划 有 效 实现 。 

在 小 结 部 分 ， 我 们 指出 PCA 和 压缩 感知 背后 的 先 验 假 设 ， 这 有 利于 我 们 理解 两 种 方 
法 的 优 缺 点 。 


23.1 主 成 分 分 析 

令 悟 ，…， 世 为 允 个 双 维 回 量 。 我 们 想 利用 线性 变换 对 这 些 向 量 进行 降 维 。 给 定 矩 阵 
WER GO<d)， 则 存在 映射 xF>*Wx， 其 中 WxE 开 是 x 的 低 维 表示 。 另 外 ， 和 矩阵 UE 玲 ”能 
够 将 压缩 后 的 信号 (近似 ) 复 原 为 原始 的 信号 。 即 ， 对 于 压缩 向 量 y—Wx, Hp y 在 低 维 空间 
R 中 ,我们 能 够 构建 X= 二 Uy， 使 得 * 是 x 的 复原 版 本 ， 处 在 原始 的 高 维 空间 Rf 中 。 

Æ PCA 中 ， 我 们 要 找 的 压缩 矩阵 W 和 复原 矩阵 U 使 得 原始 信号 和 复原 信号 在 平方 距 
离 上 最 小 ; 即 ， 我 们 需要 求解 如 下 问题 

argmin, >) || x; —UWx; ||; | (23. 1) 

为 了 求解 上 述 问题 ， 我 们 首先 显示 该 最 优 解 具有 特别 的 形式 。 

引 理 23. 1 AU, W)2X(23. 1) 的 一 个 解 ， 则 U 的 列 是 单位 正 交 的 ( 即 ，UTU 是 R 
上 的 单位 矩阵) 以 及 WSU", 

证 明 ”给 定 任何 的 UU，W， 考 虑 映射 x HUWx, KARR AVA R= (UWx:x€ R) E 
Ri 中 的 一 个 n 维 线性 子 空间 。 令 VER"*" 为 一 个 单位 正 交 和 矩阵 ， 且 它 的 列 构成 了 上 述 子 空 
间 的 一 组 正 交 基 ， 即 ，V 的 值 域 为 R AV'V=I. Ak, R 中 的 每 一 个 列 向 量 可 表示 为 


Vy， 其 中 yER"。 对 于 每 一 个 xCR MYER, 我们 有 
Ix—Vyl;, = |xl?+yrViVy—2y Vix = |x|?:+|y|?—2yrVix) 
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其 中 ,我们 利用 了 VYV ÆR 中 的 单位 和 矩阵。 对 上 式 关 于 y 求 最 小 ， 即 使 关于 y 的 梯度 为 
0， 有 y=V'x, Alt, WFR—t+ x 我 们 有 
YY s = argmin|x — 7|; 


特别 地 ， 上 式 对 于 xs -, x, ym. AE. RIA V., V' 来 取代 U，W， 由 此 产 
生 如 下 不 等 关系 
> Ix —UWx; j. > DI Ix — VV" x; ||; 
因为 对 于 每 一 个 U, wW, 上 式 都 成 立 ， 所 以 引 理 成 立 ， i 
在 上 述 引 理 的 基础 上 ， 我 们 可 以 重 写 优 化 问题 式 (23. 1) 为 
argmin p> | x; —UU™ x; ||; (23:2) 
UER’ U'U=I 


我 们 利用 下 面 基本 的 代数 操作 来 进 一 一 步 简化 该 优化 问题 ， 对 于 每 一 个 xE R! 和 和 矩阵 
UER” H U'U=I, 我 们 有 
|x —UU'Tx||?= |x|)? — 2xT"UUT x + xTUUTUUT x 
= |x|? —x™UU'x (23. 3) 
= || x|? — trace(U' xx™U) 
其 中 ， 和 矩阵 的 迹 (trace) 为 矩阵 的 对 角 元 素 之 和 。 因 为 迹 是 一 个 线性 算 子 ， 这 人 允许 我 们 将 式 
(23. 2) 重 写 为 
argmin trace(U™ ) xx1U U) (23. 4) 


UER” :U'U=I 


A= > nd. HERE A 是 对 称 的 且 可 进行 谱 分 解 A 二 VDV"， 其 中 D Ext fi FEL 


=] 


及 TV vvwr= I。 这 里 ，D 上 的 对 角 元 素 是 A 的 特征 值 ，V 的 列 对 应 A 的 特征 向 量 。 不 
失 一 般 性 ， 我 们 假设 Di >D: >" >Dia. AA A 是 半 正 定 的 ， 所 以 Dy 宇 0。 我 们 得 出 
式 (23. 4) 的 解 为 A 的 最 大 的 n 个 特征 值 对 应 的 特征 向 量 所 构成 的 和 矩 阵 U。 

定理 23.2 Axis vy Xn RR 中 的 任意 向 量 ，A 一 > xa? ， 以 及 出 ，…， 山 是 A 


中 最 大 的 n 个 特征 值 对 应 的 特征 向 量 。 那 么 ， 如 式 (23. 1) 所 示 的 PCA 优化 问题 的 解 为 ， 
令 吕 的 列 等 于 WW ，*…， 届 以 及 W=UT， 


证 明 S VDV" 为 人 A 的 谱 分解 。 给 定 列 正 交 和 矩阵 UCR”, A B=VTU。 则 ,，VB= 
VVTU==U。 进 而 有 
UTAU = B'V'VDV'VB = BITDB 
以 及 
d n 
trace(UTAU) = $1 Djy > BI 
j=1 i=] 


dol n sanean aa pe 
男 外 ， 令 BER"* 为 一 个 前 n 列 与 B AIF AB B= 了 的 和 矩阵 。 则 对 于 每 ， 我 们 有 
d n 
3 Bi;=1, 这 意味 着 > BF <1. 进而 
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ae Rate AFIRE oo 


d 
trace(U' AU) < max pt D; 4B; 


BELO,1Y :Bll <1j=1 


不 难 验证 ( 见 iL 23.2) 上 式 右边 等 于 D) Dy， 因此 对 于 每 一 个 列 正 交 和 扼 阵 UE RR", 
trace(UTAU) < > D，, 均 成 立 。 在 另 一 方面 ， 如 果 我 们 令 U 的 列 为 A 的 前 n 个 特征 向 
量 ， 我 们 有 trace(UTAU)== p> Di,,， 由 此 定理 得 证 。 - 

评注 ”定理 23. 2 的 证 明 同样 告诉 我 们 式 (23. 4) 的 目标 值 是 > D;;。 这 与 式 (23. 3) 结 


合 以 及 = || x; |? =trace(A) = 3 D;;， 我 们 可 以 得 到 式 (23. 1) 的 最 优 值 是 by D;.: 

评注 在 实际 应 用 中 ， 在 运用 PCA 之 前 需要 对 样本 进行 “中 心 化 ”。 即 ， “我 们 首先 计 
# p=} $) x;， 然 后 用 PCA 作用 于 (x 一 jp)，…，(xw 一 4)。 这 也 与 PCA 作为 方差 最 大 
化 的 解释 相关 ( 见 练习 23. 4) 
23. 1.1 4d>m 时 一 种 更 加 有 效 的 求解 方法 

在 一 些 情况 下 ， 数 据 的 原始 维度 远 远大 于 样本 的 个 数 m。 按 照 如 前 所 述 的 方法 求解 


PCA 的 计算 复杂 度 是 O(q3)( 用 于 计算 A 的 特征 值 ) 再 加 上 Ond’) GAT Fa Ee AD. R 
们 现在 介绍 在 ddm 的 情形 下 更 加 有 效 求 解 PCA 的 一 个 简单 技巧 。 


回忆 一 下 A 可 以 被 描述 为 xx}, Alt, 5A A=X'X, HP XER" 的 第 i 行 
为 xT。 考 虑 矩阵 B=XX', MBER” HE i, 个 元 素 为 (x;，x;)。 假 设 wu 是 B 的 一 个 特 
征 向 量 ， 有 XE 及 ，Bu 二 Ww。 等 式 两 边 左 乘 XI 并 利用 B 的 定义 可 得 X'XX'u 二 XX'u。 但 
E, AMAREX HAX WAX u). Aie gareg 是 A 的 一 个 特征 向 量 ， 对 应 的 
特征 值 为 4。 

所 以 ， 我们 可 以 通过 计算 B 的 特征 值 来 取代 A 去 求解 PCA。 该 过 程 的 复杂 度 是 
Olm) CAFE B 的 特征 值 ) 以 及 OCm’ d) (用 于 构建 A). 

评注 “之 前 的 讨论 同样 意味 着 我 们 仅仅 只 需要 知道 如 何 去 计 算 向 量 的 内 积 去 求解 
PCA。 这 使 得 我 们 在 d 非常 大 (甚至 无 限 ) 的 时 候 能 够 利用 核 去 隐 性 地 求解 PCA， 从 而 产 
ÆT 4 PCA 算法 。 
23.1.2 应 用 与 说 明 

下 面 给 出 了 PCA 的 一 个 伪 代 码 。 


输入 


A m SAE AR BX ER" 
成 分 个 数 n 
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On FR (mm >d) 
ASX" X 
Au, e, U, AA 的 前 n 个 最 大 特征 值 对 应 的 特征 向 量 
否则 


B=xXxX' 
Avi, ot, 0, AB 的 前 nn 个 最 大 特征 值 对 应 的 特征 向 量 


ot 
对 = eee 全 = _——_ X! v; 
l L, 9 Ny Q U; IX v, | 
输出 : Uis ***s U, 





为 了 说 明 PCA 是 如 何 运 作 的 ， 我 们 首先 生成 一 些 散落 在 一 条 直线 附近 的 二 维 向 量 ， 
即 ， 处 于 二 维 空间 的 一 维 子 空间 。 例 如 ， 每 一 个 样本 具有 (Zz，Zz 十 y) 的 形式 ， 其 中 工 从 
[一 1，1j 中 均匀 随机 选取 ， 而 y 从 一 个 均值 为 0、 标 准 方差 为 0. 1 的 高 斯 分 布 中 随机 采样 。 
我 们 现在 将 PCA 应 用 于 这 些 数据 。 那 么 ， 对 应 着 最 大 特征 值 的 特征 向 量 近似 于 向 量 


(1/N2，1/N2)。 将 点 (x，z 十 y) 投 影 到 该 主 成 分 上 ， 我 们 将 得 到 标量 < 地。 原始 癌 量 的 
重 构 为 (+ 十 y/2，zx 十 y/2)。 在 图 23. 1 中 ， 我 们 画 出 了 原始 和 重 构 的 数据 。 


1.5 


0.5 





-1.5 
-1.5 一 ] -0.5 0 0.5 l 1.5 


图 23.1 二 维 空 间 的 一 个 向 量 集 (x) 以 及 利用 PCA 降 维 到 一 维 后 的 重 构 结 果 (o@) 


接 下 来 ， 我们 阐述 PCA 在 一 个 人 脸 数 据 集 上 的 有 效 性 。 我 们 从 Yale 数据 集 
(Georghiades, Belhumeur & Kriegman 2001) 选 取 部 分 人 脸 图 像 。 每 幅 图 像 有 50X50= 
2500 像素 ; 因此 原始 的 维度 非常 高 。 

一 些 人 脸 图 像 展示 在 图 23. 2 的 左上 部 分 。 利 用 PCA， 我 们 约 简 维度 到 RR*， 然 后 重 构 
回 原 始 的 维度 (R*””)。 重 构 的 结果 展示 在 图 23. 2 的 右上 部 分 。 最 后 ， 在 图 23. 2 的 底部 ， 
我 们 画 出 了 图 像 的 二 维 表达 。 可 以 看 到 ， 即 使 从 图 像 的 二 维 表达 中 我 们 仍然 能 够 粗略 地 分 
离 不 同 的 个 体 。 


216 ”党 三 部 分 ”其 他 学 习 模 型 








| | xT xg | | 
二 ah | | | | 
$., | | | * | 
a | | | * | | 
i nena 7 == fe be -1—- er —e 
| | | | | 
| 


图 23.2 从 Yale 数 据 集中 选取 的 人 脸 图 像 。 左 上 : JR RORY). AE: 降 维 
到 及 "后 重 构 的 图 像 。 中 间 一 行 ， PCA 处 理 前 后 的 一 幅 图 像 的 放大 版 本 。 
底部 : 降 维 到 R 后 的 图 像 。 不 同 的 标记 代表 不 同 的 个 人 


23.2 随机 投影 


本 市 我 们 介绍 利用 随机 线性 投影 进行 降 维 ， 这 导致 了 一 种 具有 很 低 失真 的 压缩 策略 。 
ARH x Wx, HER W 是 一 个 随机 矩阵， 因此 又 称 之 为 随机 投影 。 我 们 通过 提供 一 个 由 
Johnson 和 Lindenstrauss 给 出 的 闭 名 引 理 的 变种 ， 从 而 显示 随机 投影 不 会 扭曲 欧 氏 距离 
KB. 

Sx, x AR EAS. WR 

| Wx, — Wx, | 
| Xı X; | 
接近 1, MEK W 没有 扭曲 xi Al x. 之 间 的 距离 太 多 ,或 具有 保 距 特性 。 换 名 话说 ，xi 和 
xX: 之 间 的 距离 在 变换 前 后 基本 一 致 。 为 了 显示 | 上 Wxi 一 Wx;‖ 没 有 太 过 偏离 | x 一 x; |, RE 


证 明 W 没有 扭曲 差分 向 量 x 二 xi 一 x; 的 范 数 。 因 此 ， 从 现在 开始 我 们 关注 
我 们 首先 分 析 由 于 应 用 随机 投影 产生 的 失真 。 


引 理 23.3 固定 某 个 LER. AWER AMBRE W,, Zh ERMPE 
量 。 那 么 ， 对 于 sE (0，3) 我 们 有 


| | (1/ [ae tel |? 1 1| > e < Dene n/6 








| x || 
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证 明 “不 失 一 般 性 ， 我 们 假设 1x 必 王 1。 因 此 有 等 价 不 等 式 
P0 — a)n < ||Wx|?< a +e)n] = 1—26 "s 
A w; HW 的 第 i 行 。 随 机 变量 (w;，x) 是 & 个 独立 正 态 随机 变量 的 一 个 加 权 和 ， 因 而 均 


值 为 0， 方差 为 D j=l =, Bt, 随机 变量 |Wz| 一 > Cw,» 29)" 具有 一 A x 


分 布 。 最 终 的 结论 可 由 B.7 节 中 的 引 理 B. 12 所 述 的 x 随机 变量 的 测量 集 的 特 性 直接 得 
出 。 a 
Johnson-Lindenstrauss 引 理 可 用 一 个 简单 的 联合 有 界 声明 得 出 。 
引 理 23. 4(Johnson-Lindenstrauss 引 理 ) 令 Q 为 下 上 的 一 个 有 限 向 量 集合 。 另 令 
GEG(0，1) 且 n 为 一 个 整数 ， 使 得 


_ [Mg — , 
n i 


RA, AR-SA EWER, W 中 的 每 一 个 元 素 满足 零 均 值 和 1l/n FZ, MARIE 
1 一 6 的 概率 
py wice 

| xl 


xe 








WEAR 结合 引 理 23.3 和 联合 界 ， 对 于 每 一 个 <E (0，3) 我 们 有 








|| Wx ||? —_ e n/6 
Ps tate >e 
令 $ 表 示 上 面 不 等 式 的 右边 ， 因 此 我 们 可 以 得 到 
- [PERA . 
n 


有 趣 的 是 ， 引 理 23. 4 中 的 界 不 依赖 于 xz 的 原始 维度 。 事 实 上 ， 即 使 r 在 无 限 维 的 希 
尔 伯 特 空间 上 ， 该 界 依然 有 效 。 


23.3 压缩 感知 


压缩 感知 利用 原始 信号 在 某 一 个 基 上 表示 稀疏 这 一 先 验 假设 进行 降 维 。 考 虑 向 量 xE 

RK, EEES s^ ER., B, 
belle = jiena 

显然 ， 我 们 可 以 通过 利用 s 个 (索引 ， 值 ) 对 表示 从 而 对 x 进行 压缩 。 而 且 ， 这 种 压 
缩 是 无 损 的 一 一 我 们 可 以 从 这 ;个 (索引 ， 值 ) 对 中 准确 重 构 x。 现 在， 进一步 假设 x 二 Ua ， 
其 中 a 是 一 个 稀 玖 向 量 ，jal。o 志 ;， 以 及 U 是 一 个 确定 的 正 交 和 抑 阵 。 即 ，x 在 另 一 个 基 上 
具有 黎 足 表达 。 事 实 上 ， 很 多 自然 信号 在 某 一 表达 上 是 稀 朴 或 近似 稀疏 的 。 该 假设 应 用 在 
很 多 现代 压缩 方法 中 。 人 例如， 图 像 压缩 中 的 JPEG-2000 格式 便 是 基于 自然 图 像 在 小 波 基 上 
ALT DBE . 

我 们 怎么 将 x 压缩 成 ; 个 元 素 呢 ? 一 种 简单 的 方法 是 将 x FEL UT, WS SRR e E 
a， 然 后 利用 ;个 (索引 ， 值 ) 对 表示 a。 然 而， 这 首先 需要 我 们 去 “感知 ”x， 然 后 存储 它 ， 
进而 才能 乘 以 U'"。 这 产生 了 一 个 非常 自然 的 问题 ， 既然 需要 压缩 的 信号 的 大 部 分 内 容 是 
要 抛弃 的 ， 我 们 为 什么 要 花费 代价 去 获得 所 有 的 数据 呢 ?” 我 们 能 不 能 直接 获取 那些 最 终 不 
SIF Nas A AE? 
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压缩 感知 是 一 种 同时 获取 和 压缩 数据 的 技术 。 关 键 结 果 是 一 个 随机 线性 变换 可 以 在 不 
损失 信息 的 前 提 下 对 x 进行 压缩 。 需 要 测量 的 数目 是 slog(Q) 阶 的 ， 即 我 们 仅仅 只 需要 信 
号 的 这 些 重 要 信息 。 在 后 面 ， 我 们 可 以 看 到 ， 我 们 需要 付出 的 代价 是 一 个 比较 慢 的 重建 阶 
段 。 在 一 些 情况 下 ， 在 压缩 阶段 节约 时 间 而 在 重 构 阶 段 花费 更 多 的 时 间 是 有 意义 的 。 例 
如 ， 一 个 安全 监控 摄像 头 应 该 感知 和 压缩 大 量 的 图 像 ， 而 大 部 分 时 间 我 们 是 不 需要 对 这 些 
压缩 数据 进行 解码 的 。 而 且 在 很 多 实际 应 用 中 ， 利 用 线性 变换 进行 压缩 的 优势 在 于 可 以 在 
硬件 上 表现 得 高 效 。 例 如 ，Baraniuk 和 Kelly 带领 的 团队 已 经 提出 了 一 个 摄像 头 结构 ， 该 
结构 利用 一 个 数字 微 镜 阵 列 进行 图 像 线性 变换 的 兴 计 算 。 在 这 种 情况 下 ， 获 取 每 一 个 压缩 
测量 与 获取 单个 原 测量 一 样 简 单 。 压 缩 感知 的 夯 一 个 重要 应 用 是 医学 成 像 ， 在 该 领域 ， 需 
要 更 少 的 测量 从 而 对 病人 产生 更 少 的 辐射 。 

非 正 式 地 ， 压 缩 感知 的 主要 前 提 来 自 于 如 下 三 个 “惊人 ”的 结果 “: 

1. 如 果 一 个 信号 通过 xhF?*Wx 压缩 ， 其 中 W 是 一 个 满足 约束 等 距 特性 (RIP) 的 和 矩阵。 
满足 该 特性 的 和 矩阵 能 够 保证 任 一 稀 玻 表达 向 量 范 数 的 低 失真 。 

2. 通过 求解 一 个 线性 规划 问题 ， 重 构 可 在 多 项 式 时 间 内 完成 。 

3. 当 n 大 于 slog(4d) 阶 次 时 ， 一 个 随机 的 nXd 矩阵 很 有 可 能 满足 RIP 条 件 。 

正式 地 有 如 下 定义 : 

定义 23. 5(RIP) ”如 果 对 所 有 的 x20 且 ‖ xl 入 ys 有 下 式 成 立 ， 那 么 一 个 矩阵 WER" 
是 (e，5)-RIP 的: 

| Wx ||; 
EJP 

第 一 个 定理 说 明了 RIP EERE E i et tin RE EE T — 

个 (不 高 效 的 ) 重 构 策 略 。 


定理 23.6 Se<1 URW Ale, 2s)-RIP HH, x 是 一 个 满足 lz 入 s HAZ, y= 
Wx FLX 的 压缩 ， 并 令 





-1|<。 


x E argmin||v | ‘ 
为 重 构 向 量 。 则 全 二 x。 

WEAR AFUE, Fe RIX Ax, AAIE lol xls, PRU | x—¥l,<2s, Fe 
RIP 不 等 式 应 用 到 x 一 人 XX。 但 是 ， 因 为 W(x 一 XY) = 二 0, RNA |O-1|<e, KX HMB 
APE S 

定理 23. 6 给 出 的 重建 方法 似乎 依旧 低 效 ， 因 为 我 们 需要 最 小 化 一 个 组 合 目标 (zw 的 稀 
朴 性 导致 。 神 奇 的 是 ， 我 们 可 以 将 组 合 目标 | 替换 为 凸 的 目标 由 zl 由 ， 从 而 转化 为 线性 
规划 问题 并 能 高 效 求解 。 以 下 定理 对 此 做 出 正式 阐述 。 

定理 23.7 假设 定理 23. 6 的 条 件 成 立 以 及 se<_ 工 ” N, 

1 十 V2 


x = argmin |v |o = argminlz| 
u:Wv=y v:Wo=y 


事实 上 ， 我 们 将 证 明 一 个 更 强 的 结果 ， 该 结果 即使 在 x ANG BE TAD ARE BARR 
成 证 。 


定理 23.8 4e< 





L , 
TE GAA W 是 (e，25)-RIP 矩阵 。 令 为 任意 向 量 并 定义 
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x, E argmin lx — v ||, 
v: | v || oS 


Bp, x, 是 一 个 s 个 最 大 元 素 与 Xx 相等 且 其 他 元 素 为 0 的 向 量 。 令 ?一 Wx Ax 的 压缩 以 及 
x" € argmin|| v | ， 
v:Wo=y 
为 重 构 向 量 。 则 有 ， 
|x —xls < 2 758e e—a: 


其 中 6 一 V2e/(1 一 e) 。 


注意 在 x 二 x, 这 种 情况 下 ， 我 们 能 够 获得 一 个 准确 复原 ，x* 二 x， 所 以 定理 23. 7 是 定 
理 23. 8 的 个 例 。 定 理 23. 8 的 证 明 在 23. 3.1 市 。 

最 后 ， 第 三 个 结果 告诉 我 们 ，n 主 Q(slog(qd)) 的 随机 和 矩阵 很 有 可 能 是 RIP 的 。 事 实 
上 上， 这 个 理论 显示 一 个 随机 和 矩阵 乘 以 一 个 正 交 和 矩阵 同样 是 一 个 RIP 和 矩阵。 这 对 压缩 信号 
x 一 Ua (x 不 稀疏 ，c 稀 玖 ) 很 重要 。 在 这 种 情况 下 ， 如 果 W 是 随机 和 矩阵 且 用 y=Wx JE 
缩 ， 这 类 似 用 y= (WU a 压缩 a， 而 且 由 于 WU 是 RIP 的 ， 所 以 我 们 能 够 从 yy 中 重 构 @ 
(LAR x). 


定理 23.9 令 吕 是 一 个 任意 的 以 XC EXE, cH 是 在 (0，1) 的 标量 ，s 是 在 [d | 
上 的 整数 ，n 是 满足 下 列 条 件 的 整数 
n> 100 slog (40g/ (66)) 


令 WERR" 的 每 一 个 元 素 满足 均值 为 0， 方差 为 1/n 的 正 态 分 布 。 那 么 ， 当 选择 好 WW 后 ， 
矩阵 WU 以 至 少 1 一 9 的 概率 是 (e，5)-RIP 的 。 


以 下 证 明 内 容 属于 高 级 部 分 。 

定理 23. 8 的 证 明 

我 们 从 Candes(2008) 的 工作 中 得 出 以 下 证 明 。 

令 h 二 x" 一 Xx。 给 定 一 个 向 量 v 和 一 个 索引 集合 I， 我 们 用 v 表示 一 个 向 量 ， 如 果 
(El, Wiki) SASS i 个 元 素 是 v;， 耕 则 为 0。 

我 们 使 用 的 第 一 个 技巧 是 将 索引 集合 Ldj 二 {1，…，d} 划 分 为 大 小 为 :的 不 相交 的 集 
Ro 即 ， 对 于 所 有 的 ly 有 [dj 二 To UTi WT Ty;-1 5 |T; | =s. 为 了 证 明 的 简易 性 ， 我 
们 假设 d/s 是 整数 。 我 们 规定 : HET) 中， 包含 x 的 绝对 值 中 的 最 大 的 s 个 元 素 对 应 的 s 个 
的 索引 。 令 T= 二 Ldj\ To. EFE, T 包含 hr 的 绝对 值 值 中 最 大 的 s 个 元 素 所 对 应 的 索 
引 。 令 Tor =ToUTi A Tin =Ld]\ Tor. EFK, T: 对 应 着 hr ,绝对 值 中 最 大 ;个 元 
素 。 我 们 利用 相同 的 方法 构建 Tss Tis 0 

为 了 证 明 这 个 定理 , 我 们 首先 需要 如 下 引 理 ,该 引 理 显示 RIP 同样 预示 着 近 正 

引 理 23. 10 AW 是 一 个 (e，2s)-RIP 答 阵 。 那 么 对 任意 两 个 大 小 至 多 为 的 不 相交 
ZAI, J, ARIE AE u, AA (Wu. Wu; )<ellu; || 2 lu, lle. 

WEARS PRIE, Bi lu l= lu l=, WA 
| Wa, + Wu, |; — | We, — Wu; ||} 

4 

但 是 ， 因 为 | SUT) <2s, JA RIP 条 件 可 以 得 到 ，1 Woe, + Way (<O +e) Chur l? + lu |= 


(Wu,,Wu,;> = 
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2(1 十 @) 以 及 一 Wi 一 Wujy| 志 一 1 一 (wl; 十 上 ww1;)== 一 2(1 一 e)， 由 此 结论 得 证 。 s 
现在 我 们 准备 证 明之 前 的 定理 23. 8。 显 然 ， 
lhl = lar, +hr le < Whe, le + lax, lle (23.5) 
为 了 证 明定 理 ， 我 们 将 使 用 如 下 两 个 论断 : 
论断 1: |hr le<lhr, lo +2” |x—x, |], 


论断 2: lin, agel l 


将 这 两 个 论断 和 方程 (23. 5) 结 合 在 一 起 ， 我 们 得 到 
lhl Ihr, l2 + Ihr, le <2 he, le +257? |x— xsl 


0,1 
<27 +1)? x—xslh, 


= 2 rr Ml y—xs |, 

由 此 结论 得 证 。 

证 明 论断 1: 

证 明 这 个 论断 ， 我 们 根本 无 需 用 到 RIP 条 件 ， 而 只 需要 注意 到 一 个 事实 : x* 最 小 化 &， 
范 数 。 令 7 全 1。 对 每 个 1E 万 Mi E Ti 我们 有 |hi| 志 |hz|。 所 以 ，|| hz lo lhr ,l/s 
从 而 ， 

| hr l2 < s” | hr la = | hr, la 
将 此 式 在 7 一 2，3，… 上 求 和 ， 再 利用 三 角 不 等 式 ， 可 以 得 到 
[hr le < Dy Ihr, l2 < hh l (23. 6) 


jez 
HK, BATRA Where 外 不 可 能 很 大 。 事 实 上 ， 从 x* 的 定义 可 以 看 出 1xl, xt |, = 
1x 二 hl,。 因 此 ， 利 用 三 角 不 等 式 ， 可 以 得 到 
xl, > lx+ hl: = De bh; | > ler, li — Wer, li + Were li — lær M 





‘ET, 
(23. 7) 
又 因为 xz h= lxx h= lx lar |. WA 
[hr li < Ihr, li + 2l ær I (23. 8) 
将 此 式 与 方程 (23. 6) 结 合 ， 就 能 得 到 


[hra le Ss? dher th t+ 2x Wl) < Wher, le +25 lær l 
由 此 论断 1 得 证 。 
证 明 论断 2: 
对 于 第 2 个 ; ai 我 们 利用 RIP 条 件 得 出 
1—e)|hr, l2 < |Whz | (23. 9) 
因为 Why, = Wh 一 2, Wh, = 一 2, Whr, ， 则 有 
[Wh |? =— 24 Whe, Whr > =— J) Whey, +Whr, ,Whr, ) 


将 RIP 条 件 用 到 内 积 上 ， 可 以 得 到 对 于 所 有 的 ie (1, 2M j>2A 
| (Why »Whr ) | < ellhr l2 | hr, l2 


AH hr, le+lhr le</Zlhr lz, F 


0,1 
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[Whr,, 13 <vV2elhr,, le 2 Ihr Ile 
j2 


将 此 式 与 方程 (23. 6) 和 方程 (23. 9 结合 能 够 得 出 “ 
(1—e) Ir, 13 <v2eller,, Vos’? Were l 
重 排 以 上 不 等 式 则 有 


| hr 


0.1 


最 后 ， 利 用 方程 (23. 8) ， 我 们 推出 
Ihr, le < os hr +2) x i) < ohhr le +2057? xx |, 
但 是 因为 上 hr 上 ;二 上 hr 1 ， 这 意味 着 


LS er 


l2 < sibs gan || fer: |l 


由 此 论断 2 得 证 。 

定理 23. 9 的 证 明 

为 了 证 明 这 个 定理 ， 我 们 采用 来 自 Baraniuk, Davenport, DeVore& Wakin(2008) 的 
方法 。 该 策略 是 将 Johnson-Linderstrauss(JL) 引 理 和 对 覆盖 的 简单 讨论 结合 在 一 起 。 

我 们 从 单位 球 的 覆盖 性 质 谈 起 。 


引 理 23. 11 令 e€(0，1)。 存 在 一 个 有 限 集 QCR'， 其 大 小 |Q| 过 ( 卫 ) ,使 得 下 式 
RÈ: 


sup min|x — vl <e 
x:llxll<1 "EQ 
G = we F Yre Udh me leithe + 
显然 ，|Q | 二 (2 十 1)*。 我 们 令 Q=Q'N BQ), 其 中 BA) R 中 的 单位 《, BR, Al 
为 Q 中 的 点 在 单位 6. 球 ， 则 QQ 的 大 小 是 Q' 的 大 小 乘 以 单位 4, 球 和 单位 &_ 球 的 体积 比 ，&_ 
的 体积 是 2 m B; (1) 的 体积 是 
nd 
(1 +ad/2) 
简单 起 见 ， 假 设 d 是 偶数 。 因 此 


dd/2 
rd +d/2) = (d/2)! > (<2) 


其 中 ， 最 后 一 个 不 等 式 中 ， 我 们 采用 了 斯 特 林 近似 。 总 的 来 说 ， 我 们 可 以 推出 
(Q| < (2k+1)4 (r/e) (qd/2) 22 (23. 10) 
现在 固定 &。 对 每 个 KE B:(1)， 令 向 量 vEQ， 其 第 i 个 元 素 是 sign(z,)L | az lk Ik. 
那么 ， 对 每 个 元 素 都 有 | z;—v;|<1/k. PRU, 


lx—vl<¥4 
为 保证 上 式 右 端 项 至 多 为 e， 我 们 令 &==[Vd/e 1。 将 该 值 带 入 方程 (23. 10) ， 可 以 推出 
2 -dl2 — ( 3 j 3 站 
[QIK (3 ld /(26))" a/o cae = (3 fE) < (4) 7 


E€ E 
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A [nl at x 能 被 写 为 x 二 Ua， 其 中 UU 为 正 交 和 矩阵 而 al。 志 ss。 将 之 前 的 有 覆盖 性 质 和 IL 
引 理 ( 引 理 23. 4) 相 结合 ， 我 们 将 看 到 一 个 随机 和 矩阵 W 不 会 使 得 任何 x 失真 (在 随机 映射 意 
义 下 不 失真 ， 详 见 引 理 23. 4) 。 


引 理 23. 12 GU AdXd 的 正 交 矩阵 ，IC[4d|]| 为 指标 集合 ， 大 小 |1T| 王 s。 令 S 为 
(UD;:iET} 的 线性 展开 ， 其 中 U; 是 U 的 第 1 列 。 再 令 6E(0, 1), EO, 1) 和 nEN, A 
ne BA log(2/6) + slog(12/s) 

E 


那么 ， 以 至 少 1 一 $ ORE, PMPEREWER’, AWURAN, HRANO, 
| Wx || _ 
Tel I]<e 
证 明 只 需要 对 所 有 xe S Axl =1 证 明 引 理 即 可 。 我 们 可 以 重 写 x 为 x 二 Uyg， 其 
HaeR, Allalla=1, MER U, 的 列 为 {U;:i€7T)。 采 用 引 理 23. 11， 我 们 知道 存在 集合 
Q, 其 大 小 满足 |Q| 志 (12/e)’， 那么 
sup minla — vl< (e/4) 


a: ||all =1 ”ES 
但 因为 U 是 正 交 的 ， 所 以 也 能 得 到 
sup min [Ua —Uy||< (e/4) 


a: || all =1 E 
将 引 理 23. 4 用 于 集合 1 T EA, 可 以 得 到 满足 引 理 中 条 件 的 上， 那么 下 式 以 至 少 
1 一 6 的 概率 成 立 : 





m 














Iwu el? 
sup| Taal 1] <e/2 
这 也 意味 着 
Wel | < 
pr Uw | = 
A a 为 满足 下 式 的 最 小 数 ， 


VxE si Elte 


显然 s<ce。 我 们 的 目标 是 让 a<e。 注 意 到 对 任意 单位 范 数 的 xES 都 存在 vEQ IE lx — 
Uw ||<e/4, 所 以 

[wxl< |WU||t+ |Wex—Up) |< 1 +e/2 +0 +ade/4 
因此 ， 








Vx ES, at < 1+ (e/2 + A +a)e/4) 
但 a 的 定义 意味 着 
<e/2+ A t+ade/4a < Ate tn if 


“= 
nanan catia 不 等 式 的 另 一半 也 可 以 由 此 得 到 ， 因 为 


ci a pei malig wa ie ta 
之 前 的 引 理 告诉 我 们 对 任意 单位 范 数 的 xES， 都 有 
(l—-e) < |Wxl< (+e) 
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(1—2e) < | xi = (1+ de) 


23. 9 的 证 明 由 在 所 有 可 能 的 工 上 的 联合 界 得 到 。 


23.4 PCA 还 是 压缩 感知 

假设 我 们 将 对 某 个 给 定数 据 集合 进行 降 维 ， 应 该 使 用 PCA 还 是 压缩 感知 呢 ? 在 这 一 
节 我 们 将 通过 强调 并 理解 两 种 方法 背后 的 假设 ， 来 解决 这 个 问题 。 

首先 需要 理解 的 是 每 种 方法 在 何 种 情况 下 能 保证 完美 的 数据 恢复 。 当 数据 集合 包含 在 
R 中 的 n 维 子 空间 时 ，PCA 能 保证 完美 的 恢复 。 而 当 数 据 集合 是 稀 芷 (在 某 些 基 上 ) 的 时 
候 ， 压 缩 感知 能 保证 完美 的 恢复 。 基 于 以 上 事实 ， 我 们 将 阐述 在 何 种 情况 下 PCA 比 压缩 
感知 更 有 效 ， 反 之 亦 然 。 

第 一 个 例子 假设 所 有 数据 是 R 的 标准 基 向 量 ， 即 ee ，…，ezs， 其 中 每 个 向 量 e 的 第 i 
位 为 1， 其 余 全 为 0。 这 种 情况 下 ， 所 有 的 数据 都 是 1 - 稀 玻 的 。 因 此 ， 只 要 数据 个 数 满足 
n 宇 Q(log(d))， 压 缩 感知 就 能 保证 完美 恢复 。 男 一 方面 ，PCA 在 这 个 数据 集合 的 性 能 就 
很 差 ， 因 为 只 要 <d， 这 些 数据 就 远 远 不 能 称 其 为 维 子 空间 。 事 实 上， 很 容易 验证 在 
此 种 情况 下 ，PCA 的 恢复 误差 (也 即 是 ,方程 (23. 1) 的 目标 除 以 9) 为 (d 一 n)/d， 当 nn 壹 
d/2 时 这 就 比 1/2 大 了 。 

接 下 来 我 们 给 出 一 个 PCA 效果 比 压 缩 感知 好 的 例子 。 考 虑 正好 在 n 维 子 空间 中 的 mm 
条 数据 。 显 然 在 此 种 情况 下 ，PCA 将 得 到 完美 恢复 。 而 对 于 压缩 感知 ， 注 意 到 所 有 的 数 
据 在 任何 正 交 基 ( 其 中 前 个 基 疝 量 线性 展开 为 这 个 子 空间 ) 下 为 n - 稀 跑 的 。 所 以 ， 如 果 
我 们 将 维 数 降低 到 QCmlog(d))， 压 缩 感知 也 能 起 作用 。 然 而 ， 对 n 维 的 情况 ， 压 缩 感知 
就 失效 了 。PCA 对 此 种 噪声 有 更 强 的 恢复 能 力 。 详 见 Chang, Weiss & Freeman(2009) 中 
的 讨论 。 


23.5 me 


我 们 介绍 了 两 种 采用 线性 变换 的 降 维 方法 : PCA 和 随机 映射 。 如 果 将 重 构 过 程 限制 
在 线性 操作 下 ，PCA 在 均 方 重 构 误差 的 意义 下 式 最 佳 的 。 然 而 ， 如 果 人 允许 采用 非 线 性 重 
构 ，PCA 不 一 定 最 优 。 特 别 地 ， 对 于 稀 跑 数 据 ， 随 机 上 映射 表现 显著 超过 了 PCA。 这 个 事 
实 就 是 压缩 感知 方法 的 核心 。 


23.6 文献 评注 

PCA 等 价 于 采用 奇异 值 分 解 (SVD) 进 行 最 佳 子 空间 近似 。 附 录 C 详细 描述 了 SVD 方 
法 。SVD 追溯 到 Eugenio Beltrami(1873) 和 Camille Jordan(1874)， 又 多 次 被 重新 发 现 ， 
在 统计 学 文献 中 ， 它 由 Pearson(1901) 首 次 提出 。 除 了 PCA 和 SVD， 还 有 其 他 一 些 名 字 
在 不 同 的 科学 领域 也 表示 相同 的 意思 。 例 如 Eckart-Young 定理 (在 Carl Eckart 和 Gale 
Young F 1936 年 研究 了 该 方法 之 后 )， 还 有 Schmidt-Mirsky 定理 ， 因子 分 析 ， 以 及 Ho- 
telling 变换 。 

压缩 感知 在 Donoho(2006) 和 Candes 必 Tao(2005) 中 被 引入 。Candes(2006) 也 有 提 及 。 


23:7 #5] 
23.1 本 练习 中 将 显示 ， 通 常情 况 下 ， 基 于 线性 压缩 方案 的 精确 恢复 是 不 可 能 的 。 
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23.9 
23.6 


第 三 部 分 其 他 学 习 模 型 


1) 仿 AER" 为 任意 满足 nn 三 d 一 1 的 压缩 矩阵 。 试 证 存在 &，zE 了 本，x 天 zu 使 得 
Ar 一 Ar。 
2) 试 证 基于 线性 压缩 方案 的 精确 恢复 是 不 可 能 的 。 


A ae RR (84 ai Sa Ss Sau0. WIE 
d 


n 
max Zap; = Da; 
j=] 


pe[o,1] :| Bll y<nj=1 
提示 : 考虑 每 个 向 量 BE[0，1] ANBli<n. Fi ARRAK 的 最 小 的 下 标 。 如 
果 i 二 n 十 1， 那 么 证 明 完 成 。 否 则 ， 可 以 看 到 对 某 个 7] 二 i， 增 加 B:， 减少 BB， 然 后 
可 以 得 到 一 个 优 的 解 。 这 意味 着 最 优 的 解 是 令 对 in 有 Bi 二 1， 而 对 i>n 有 Pp; 二 0。 
核 PCA: 本 练习 中 我 们 将 展示 采用 核 方 法 (参看 第 16 章 )， 如 何 将 PCA 用 于 构造 非 
线性 降 维 。 

ADK AREASZS |B), S={xis ts } 为 包含 起 中 点 的 集合 。 考 虑 特征 映射 0: 雹 一 V， 
其 中 V 为 希 尔 伯 特 空间 (可 能 无 限 维 )。 令 K:V XX HRR, B kx, x)=), 
wx ))。 核 PCA 是 利用 yy 将 S 中 的 元 素 映 射 到 V 中 ， 然 后 利用 PCA Kpa), es 
HX) RAEN R 中 的 过 程 。 该 过 程 的 输出 就 是 被 降 维 的 元 素 。 

假设 每 次 K(。，…) 的 计算 复杂 度 为 常数 时 间 ， 试 证 该 降 维 过 程 的 计算 复杂 度 
在 基于 m 和 nn 的 多 项 式 时 间 。 特 别 地 ， 如 果 你 的 算法 实现 要 求 计算 两 个 矩阵 A 和 
B 的 乘积 ， 则 需要 验证 乘积 是 否 能 被 计算 (和 矩阵 维度 符合 乘积 要 求 )。 同 样 地 ， 如 果 
需要 对 某 个 矩阵 C 执行 SYD， 则 需要 验证 分 解 能 否 被 执行 。 
方差 最 大 化 的 PCA 解释 
D Xs tts Xm AR PRm ^E, 再 令 随 机 向 量 x 的 分 布 和 xi，…，x 上 的 正 
态 分 布 一 致 。 假 设 ELxj] 二 0。 

D 考虑 寻找 单位 回 量 wER ， 使 得 随机 变量 (w，x) 方 差 最 大 。 也 就 是 说 ， 需 要 求 
解 以 下 问题 : 
argmax Var| (w,x) | = argmax 15 ((w,x;))? 


w: || w || =1 w: || w || =1 i=] 
试 证 该 问题 的 解 就 是 令 w 为 xl oo, x, 的 第 一 主 成 分 。 

2) 令 w 为 前 一 个 问题 中 的 第 一 主 向量 。 现 在 ， 假 设 我 们 需要 寻找 第 二 个 单位 向 
量 ， zz CR’, 使 得 随机 变量 (w,， ZX) 方差 最 大 ， 但 与 (wi， x) pHK. 也 就 是 
说 ， 需 要 求解 下 列 问 题 ， 

it 
试 证 该 问题 的 解 就 是 令 w 为 x1，…，x 的 第 一 主 成 分 。 
提示 ; 注意 到 
EL (Cwi,x)) (wx)) |] = wi El xx" ]w = mw! Aw 
其 中 A 二 Sixx. HAwAA 的 特征 向 量 ， 因 此 限制 条 件 B[(《wi，x))((w， 


x)) 二 0 等 价 于 (wi，w) 二 0。 
SVD 和 PCA 之 间 的 关系 : 采用 SVD 的 定理 (推论 C. 6) 来 证 明定 理 23. 2 。 
保 内 积 的 随机 映射 : Johnson-Lindenstrauss 引 理 告诉 我 们 ， 随 机 映射 保持 有 限 向 量 
集合 间 的 距离 。 本 练习 中 ， 你 需要 证 明 如 果 向 量 集合 在 单位 球 内 ， 那 么 不 仅 两 两 向 
量 间 的 距离 被 保持 ， 而 且 内 积 也 被 保持 。 


SQA RE 中 的 有 限 向 量 集 合 ， 再 假设 对 每 个 xEQ 都 有 lx| 过 1。 
1) 令 8E(0，1)， 且 为 某 整 数 ， 使 得 


2 
= [Slog || /0) <3 


试 证 以 至 少 1 一 6 KER, STRELA WER’, Hp W 的 每 个 元 素 独立 ， 均 服 
从 N(0，1/n) 分 布 ， 则 下 式 

| (Wu,Wv) —<u,v)|<e 
对 每 个 ww，vEQ 均 满足 。 
“2) G Xis ts Xna AR 中 的 范 数 至 多 为 1 的 向 量 ， 再 假设 这 些 向 量 以 间隔 y 线性 可 
分 。 假 设 d 伟 1/7 。 试 证 存在 常数 c 二 0， 使 得 对 nn 二 c/， 将 RR 中 这 些 向 量 随机 
投影 到 R*"， 则 以 至 少 99% 的 概率 ， 投 射 向量 以 间隔 y/2 线性 可 分 。 
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第 24 章 | 


Understanding Machine Learning: From Theory to Algorithms 


生成 模型 





本 书 的 开始 介绍 了 一 个 与 数据 分 布 无 关 的 学 习 框架 也 就 是 ， 无 需 对 数据 的 潜在 分 布 
做 出 任何 假设 。 进 一 步 ， 我 们 采用 判别 式 的 学 习 方法 ， 以 得 到 一 个 高 精度 的 预测 器 ， 而 不 
是 刻画 数据 的 潜在 分 布 。 本 章 将 介绍 生成 式 的 学 习 方 法 ， 即 对 数据 的 潜在 分 布 的 参数 形式 
作出 假设 ， 并 估计 其 模型 参数 。 这 个 任务 通常 被 称 为 参数 概率 密度 估计 。 

判别 式 学 习 的 一 个 显著 优点 是 ， 它 直接 对 目标 量 (预测 精度 ) 进 行 优化 ， 而 不 是 对 潜在 
分 布 进行 学 习 。Vladimir Vapnik 在 有 限 数量 信息 解决 问题 的 基本 原则 中 ， 强 调 : 

在 解决 一 个 给 定 问题 时 ， 要 设法 避免 把 解决 一 个 更 为 一 般 的 问题 作为 中 间 步 又 。 

当然 ， 如 果 我 们 能 够 成 功 地 对 数据 的 潜在 分 布 进行 学 习 ， 那 么 就 可 以 使 用 贝 叶 斯 预测 
最 优 分 类 ， 在 这 个 意义 上 ， 我 们 就 可 以 被 认为 “专家 ”。 困 难 在 于 ， 对 数据 的 潜在 分 布 的 
学 习 ， 通 常 比 预测 器 的 训练 更 为 困难 。 然 而 ， 在 某 些 情况 下 ， 采 用 生成 式 学 习 是 合理 的 。 
例如 ， 有 时 ， 对 模型 的 参数 估计 比 训练 预测 器 更 容易 (计算 量 更 小 )。 此 外 ， 有 些 情况 下 ， 
当 学 习 的 任务 不 明确 时 ， 我 们 可 以 对 数据 进行 建 模 ， 用 于 今后 的 预测 任务 ， 或 是 对 数据 本 
身 进行 理解 和 分 析 。 

本 章 首先 介绍 估计 数据 参数 的 一 个 常见 的 统计 方法 ， 即 极 大 似 然 准 则 。 然 后 ， 将 描述 
两 个 生成 假设 ， 这 将 极 大 地 简化 学 习 过 程 。 接 下 来 ， 讨 论 含有 隐 变 量 的 概率 模型 参数 的 极 
大 似 然 估计 法 ， 即 EM 算法 。 在 本 章 结尾 ， 我 们 将 简单 介绍 贝 叶 斯 推理 。 


24.1 极 大 似 然 估计 


我 们 举 一 个 简单 的 例子 。 假 定 某 制 药 公司 开 发 了 一 种 新 的 药物 来 治疗 一 种 致命 的 疾 
病 。 为 了 估计 服药 患者 的 存活 概率 分 布 ， 制 药 公司 采集 了 服用 该 药物 的 m 个 患者 的 信息 ，。 
A S= (tys 1t; Lm) RZN m 个 患者 构成 的 训练 集 ， 其 中 ， 如 果 患 者 1 存活 ， 则 记 H=1, 
否则 记 zi 二 0。 我 们 可 以 使 用 存活 率 OC LO, 1 RARE AY ETE 

我 们 希望 在 给 定 训练 集 S 的 基础 上 ， 对 参数 9 进行 估计 。 一 个 直观 的 想法 就 是 ， 将 训 
练 集 S 中 1 的 平均 出 现 频率 ， 作 为 参数 0 的 估计 。 即 


mL m 


显然 ，Es (0) 二 9， 即 9 是 参数 9 的 无 偏 估 计 。 此 外 ， 由 于 6 是 和 2 个 独立 同 分 布 的 随机 变 
量 的 均值 ， 由 Hoeffding 不 等 式 知 


0—0| <, 8 (24. 2) 
成 立 的 概率 不 低 于 1 一 6。 


事实 上 ， 关 于 9 的 另 一 个 解释 是 ， 它 是 参数 9 的 极 大 似 然 估 计 。 我 们 首先 写 出 样本 集 S 
的 生成 概率 


PLS = (21 9°** )] = Ie apra = gut (1—a 20? 
i=] 
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对 上 式 取 对 数 ， 就 是 给 定 参 数 0 时 ， 样 本 集 S 的 对 数 似 然 函数 
L(S;6) = log(PLS = (21 4***5.2m) 1) = log(® Dj xi + log(1 — 2) A— 2) 


如 果 我 们 把 对 数 似 然 度 看 作 参 数 9 的 函数 ， 则 极 大 似 然 估计 就 是 使 得 似 然 程度 最 大 的 屠 


a 


A= argmax L (S36) (24. 3) 
对 于 我 们 的 例子 ， 公 式 (24. 1) 给 出 了 存活 率 0 的 极 大 似 然 估 计 。 因 为 ， 令 工 (S，0) 关 于 0 
的 导数 为 0， 有 
7 Dl a) 
TY 


对 等 式 求解 ， 就 得 到 了 公式 (24. 1) 给 出 的 存活 率 0 的 估计 。 


24.1.1 连续 随机 变量 的 极 大 似 然 估 计 


假设 X 是 一 个 连续 型 随机 变量 。 那 么 ， 对 于 所 有 的 XE 民 ， 有 PLX= 二 zj 二 0。 于 是 之 前 
给 出 的 似 然 度 的 定义 ， 对 于 连续 性 随机 变量 来 说 ， 似 乎 不 太 合 理 。 为 了 克服 这 个 技术 困 
难 ， 我 们 可 以 定义 似 然 度 为 随机 变量 X 的 概率 密度 函数 在 点 的 对 数值 。 具 体 地 ， 由 分 
布 P 采样 得 到 的 一 个 独立 同 分 布 训练 集 S$ 王 Czl，…zw)， 我 们 定义 S 关于 参数 9 的 似 然 函 
数 为 


L(S;0) = log( [| PCz)) = >)1og(P, (zi)) 
i 一 1 i=] 


参数 9 的 极 大 似 然 估 计 就 是 函数 L(S; 0) 关 于 0 的 极 大 值 点 。 
现 以 一 个 正 态 分 布 的 随机 变量 为 例 来 说 明 求 极 大 似 然 估 计 的 过 程 。 设 X ARIAL = 


(1，0) 为 参数 的 正 态 分 布 ， 
| __ i a” 
Px) = exp 2 ) 


T 





则 似 然 函数 为 
L(S;0) =— 2 > (x; — u)’ — mlog(o V2r) 
为 使 似 然 函 数 达到 最 大 ， 分 别 令 其 关于 jy Alo 的 偏 导 数 为 0， 可 以 得 到 如 下 方程 组 : 


pL (Si = 六 2 =0 

i=1 
d ae a i 
TL SO = ay (x, aa 


对 方程 组 进行 求解 ， 得 到 极 大 似 然 估计 


R= Da 和 S= JEX ep 


值得 注意 的 是 ， 极 大 似 然 估计 不 总 是 无 偏 的 。 例如 ， 本 例 中 ， 均值 的 估计 7 是 无 偏 的 ， 但 
标准 差 的 估计 c 就 不 是 无 偏 的 ( 见 练习 24. 1). 

符号 简化 

为 了 简化 符号 ， 本 章 中 统一 用 PLX 二 zx] 描述 下 面 两 种 情况 离散 随机 变量 X=z 的 概 
率 ， 或 连续 变量 X Er 点 的 概率 密度 。 
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24.1.2 极 大 似 然 与 经 验 风 险 最 小 化 

极 大 似 然 估 计 与 我 们 在 前 面 的 章节 中 广泛 研究 的 经 验 风险 最 小 化 (ERM) 原 则 ， 是 具 
有 一 定 相似 性 的 。 在 经 验 风险 最 小 化 原则 中 ， 有 一 个 假设 集 戏 ， 利 用 训练 集 进 行 学 习 ， 选 
取 假 设 h€E7K， 实 现 使 得 经 验 风险 最 小 化 。 本 小 节 将 证 明 ， 极 大 似 然 估 计 是 对 于 特定 的 损 


失 函 数 的 经 验 风险 最 小 化 。 
对 于 给 定 的 参数 9 和 观测 样本 x， 定义 损失 函数 为 
£(0,7) 一 一 log(Po[z]) (24. 4) 


也 就 是 说 ， 假 设 观 测 样本 X 服从 分 布 P,， 损 失 函 数 4(06，Zz) 与 xz 的 对 数 似 然 函 数 相 差 一 个 
负 号 。 该 损失 函数 通常 被 称 为 对 数 损失 。 在 此 基础 上 ,很 容易 验证 ， 极 大 似 然 准 则 等 价 于 
(24. 4) 式 定义 的 损失 函数 的 经 验 风险 最 小 化 ; 即 
argmin >} (— log(P, Lz: ])) = argmax >) log(P, Lz; ]) 
数据 服从 的 潜在 分 布 为 P( 不 必 满 足 参 数 化 形式 )， 参 数 9 的 真实 风险 为 
ELECO, 1) ]=— >，PLz]log(P,[z]) 





— E Pz Joe( pE) +> PLxJlog( 5-9) (24.5) 
DrE[P Ii Pp] HP) 


FL, Dre PRA FSH, A PRA Ha ae PART AG ee TE ABE SO A BY Pe Se — 
FARD., FTE. FFAS FO 当 且 仅 当 两 个 分 布 是 相同 的 。 由 此 可 知 ， 
当 P, 王 P 时 ， 真 实 风险 达到 极 小 值 。 

公式 (24. 5) 刻 画 了 生成 式 的 假设 对 于 密度 估计 的 影响 ， 即 使 是 在 无 穷 多 样本 的 极限 情 
况 下 ， 该 影响 依然 存在 。 该 式 还 表明 ， 如 果 潜在 分 布 具有 参数 化 形式 ， 那 么 可 以 通过 选择 
合适 的 参数 ,使 风险 降 为 潜在 分 布 的 炉 。 然 而 ， 如 果 潜 在 分 布 不 满足 假设 的 参数 化 形式 ， 
那么 由 最 优 参 数 所 确定 的 模型 也 可 能 是 较 差 的 ， 模 型 的 优 劣 是 用 相对 粹 刻画 的 。 


24.1.3 泛 化 分 析 


对 于 给 定 的 有 限 训练 集 ， 如 何 评价 极 大 似 然 估 计 的 优 劣 ? 

为 了 回答 这 一 问题 ， 需 要 针对 概率 密度 估计 问题 ， 定 义 其 近似 解 的 优良 性 准则 。 在 判 
别 式 学 习 中 ， 能 够 清晰 地 确定 “损失 函数 ”; 而 对 于 生成 式 学 习 ， 模 型 的 损失 函数 的 定义 
是 有 多 种 可 能 的 。 由 上 节 知 ， 公 式 (24. 5) 列 出 的 期 望 对 数 损失 是 一 种 最 自然 的 损失 定义 。 

在 茶 些 情况 下 ， 很 容易 验证 ， 极 大 似 然 准 则 确保 了 真实 风险 的 最 小 化 。 例 如 ， 假 定 某 
正 态 分 布 的 方差 为 1， 对 其 均值 进行 估计 。 由 前 面 的 小 节 知 ， 均 值 的 极 大 似 然 估计 就 是 样 


本 的 均值 一 二 >) zx;。 设 jp" 是 最 优 的 参数 估计 值 ， 则 有 


E [Elas x) =" x) |= E lo [ Ea 


zr~N(n” ,1) zxz~N(p” ,1) P» Lx] 
] f a 
= E 一 村 (x u") += (tW) 
NGC ,( 2 . 2 ki ) 


^2 x \2 
=E W yy -H E [z] 


zr~N(p” ,1) 
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A2 # \2 a . 
二 (24. 6) 
C= pe”) 


一 一 


注意 到 ，W 作 为 m 个 正 态 随机 变量 的 均值 ， 也 服从 正 态 分 布 ， 其 均值 为 yx” ， 标 准 差 为 o* /m. 
于 是 ， 我 们 以 至 少 1 一 6 的 概率 保证 | /一 六 |e 成 立 ， 其 中 , eh o/m 和 6 确定 。 

在 某 些 情况 下 ， 极 大 似 然 估计 会 出 现 过 拟 合 的 问题 。 如 ， 考 察 伯 努 利 随 机 变量 X, 设 
P[X=1]=6". fH Hoeffding 不 等 式 ， 很 容易 得 知 : |0° 一 6| 以 较 大 概率 成 立 ( 详 见 公式 
(24. 2))。 然 而 ， 由 公式 (24. 5) 定 义 的 期 望 对 数 损失 函数 却 未 必 能 足够 小 。 为 此 说 明 这 一 
事实 ， 假定 0* 非 零 ， 充 分 小 。 那 么 ，m 个 样本 中 全 部 都 是 0 的 概率 为 (1 一 入 )”"， 是 大 于 


ew" 的 。 由 此 知 ， 当 mB 当时 ， 样 本 中 全 部 为 0 的 概率 至 少 是 50%， 此 时 由 极 大 似 


然 准 则 ， 有 6 一 0。 此 时 的 真实 风险 为 
E [2£(6.x) |= 6" €(6,1) +(1—@" ) (6,0) 
TD” 


= ĝ* log / Ô + G —8* )log(1/G 一 的 ) 
= 0 log(1/0) = co 
这 个 简单 的 例子 说 明 ， 我 们 使 用 极 大 似 然 准 则 时 要 慎重 。 
为 克服 过 拟 合 问题 ， 我 们 可 以 采用 以 前 遇 到 的 各 种 处 理 手段 。 练 习 24. 2 介绍 了 一 个 
简单 的 正则 化 技术 。 


24.2 朴素 贝 叶 斯 

朴素 贝 叶 斯 分 类 器 是 利用 生成 假设 和 参数 估计 来 简化 学 习 过 程 的 经 典范 例 。 对 于 给 定 
特征 向 量 x 二 (x1，*…，zxa)， 我 们 的 目的 是 预测 样本 的 标签 yE{0，1}。 假 定 每 个 x: 都 属 
于 !0，1}。 回 想 一 下 ， 贝 叶 斯 最 优 分 类 希 是 

hpaves (x) = argmax PLY =y X = 2] 

为 了 描述 概率 函数 PLY 王 >|X 王 xj， 我 们 需要 2° 个 参数 ， 每 个 对 应 于 给 定 一 个 xE (0, 
1} 时 概率 函数 PLY 二 1| X= 二 xj 的 值 。 这 意味 着 ,我 们 所 需 的 样本 数量 随 特征 个 数 呈 指数 
型 增长 。 在 朴素 贝 叶 斯 方法 ， 我 们 给 出 的 (朴素 的 ) 生 成 假设 是 ， 对 于 给 定 的 标签 ， 各 特征 
之 间 是 彼此 独立 的 。 即 


d 
PLX =x Y =y] = [| PLX = |Y = 9 | 
=I 


有 了 这 个 假设 ， 并 使 用 贝 叶 斯 法 则 ， 贝 叶 斯 最 优 分 类 可 进一步 简化 为 : 
higa l) = argmax PLY = y| X = x] 


= argmax PLY = y] PLX = x| Y = y] 
y&{0,1} 


d 
= argmax P[Y = ylli PLX: = mY =y] (24. 7) 
: i=1 


也 就 是 说 ， 现 在 我 们 需要 估计 的 参数 个 数 只 有 2d 十 1。 这 里 ， 所 述 的 生成 假设 ， 帮 助 我 们 
显 着 地 减少 了 需要 学 习 的 参数 数量 。 当 我 们 使 用 最 大 似 然 原则 进行 估计 参数 时 ， 得 到 的 分 
类 被 称 为 朴素 贝 叶 斯 分 类 器 。 
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24.3 线性 判别 分 析 

线性 判别 分 析 (Linear Discriminant Analysis，LDA) 是 借助 生成 假设 简化 学 习 过 程 的 
另 一 个 范例 。 我 们 再 次 考虑 给 定 特征 矢量 x= Ca. ot, oa) ERE, FMT AY E 
yE{0，1} 问 题 。 但 现在 的 生成 假设 如 下 : 首先 ， RIREPLY=1]=PLY=1]=1/2; 第 
Z, RIBE. AY X 服从 高 斯 分 布 ; 最 后 ， 对 于 标签 的 两 个 不 同 值 ， 假 定 其 对 应 
的 高 斯 分 布 的 协 方差 矩阵 是 相同 的 。 从 形式 上 看 , 令 jv， ER 且 王 是 一 个 协 方差 矩阵 。 
则 密度 分 布 由 下 式 给 出 


] 
PLX = p| Y = y] = ee (x py E(x p,) ) 
我 们 在 上 一 节 已 经 证 明了 ， 使 用 贝 叶 斯 法 则 ， 有 
hipayes (XY = argmax PLY = y| PILA = x Y = y] 


这 意味 着 ， 我 们 将 预测 Arys 051 ENX 
PY = 1P X = wel Y = 1) 
log (pry — 0] PLR = xl¥=0])> ° 


OS EE Pa SE FY BRR AT AT A PK HE 
在 我 们 的 假设 下 ， 对 数 似 然 比 为 
Sep)" — py) —F Ce pS ep) 
我 们 可 以 将 上 式 改 写 为 (w，x) 十 6， 其 中 
w = (m — m) Z 和 b= AN — pS" p, ) (24. 8) 
由 前 述 推导 的 结果 可 知 ， 在 上 述 生 成 假设 下 ， 贝 叶 斯 最 优 分 类 器 就 是 线性 分 类 器 。 此 
外 ， 人 们 可 以 通过 最 大 似 然 估计 等 方法 ， 利 用 训练 数据 来 估计 参数 pos pi MS, AME 
MORRI. ELE, TE wo. m 的 估计 值 ， 可 以 通过 公式 (24.8) 计 算 w 和 5 
的 值 。 
24.4” 隐 变量 与 EM 算法 
在 生成 模型 中 ,我们 假设 数据 通过 在 实例 空间 中 依据 一 个 特定 参数 分 布 采样 生成 。 有 
时 ， 借 助 隐 变 量 可 以 很 方便 地 表达 这 个 分 布 。 一 个 自然 例子 是 混合 高 斯 分 布 。 即 实例 空间 
人 一 Re 并 假定 每 个 x 按照 如 下 方法 产生 : 首先 ,我们 在 全 ，… ,上 k&} 中 选择 一 个 随机 数 ， 令 
Y 为 对 应 的 随机 变量 ， 记 PLY 一 yj 二 c,; 第 二 ， 我 们 根据 Y 的 取 值 ， 依 照 高 斯 分 布 生成 x 
1 1 Pal 
PLX = x| Y = y] = yn g P(T E ep, ) (24. 9) 
于 是 ，X 的 密度 函数 可 以 写 为 


PLX =x]= 2 PLY = y]PLX=x|Y=y] 
= 24° sd PM che (= D e) | 
需要 注意 的 是 ，Y 是 无 法 从 数据 中 观测 到 的 一 个 隐藏 的 变量 。 尽 管 如 此 ， 我 们 仍然 引入 
Y， 因 为 它 有 助 于 我 们 将 X 的 概率 描述 为 一 个 简单 的 参数 形式 。 
更 一 般 地 ， 令 9 是 X 和 了 的 联合 分 布 的 参数 (例如 ， 在 前 面 的 例子 中 ，6 hc u, 和 
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5, 组 成 ， 其 中 y BG 1，…, 不 中 的 所 有 值 )。 然 后 ， 可 以 将 观察 数据 x 的 对 数 似 然 写 为 
log(P,[X = x]) = log( > P,LX = x,Y = y]) 


给 定 一 个 独立 同 分 布 样本 集 S 二 (x ，…，x)， 我 们 想 找到 最 优 的 8， 使 S 的 对 数 似 
然 最 大 化 


L(0)= log || PeoLX = x;] 
i=1 
— 2, log Pel X == x: | 


= = Plog( X Pel X = x; Y=) 
因此 ， 最 天 似 然 估计 是 如 下 最 大 化 问 题 的 解 ， 
argmax L (0) = = argmax >) log( 3 PLA = EY = yl) 


在 许多 情况 下 ， 在 对 数 函 数 内 的 求 和 ， 使 前 述 优化 问题 很 难 计算 ， 期 望 最 大 化 (EM) 
算法 (由 Dempster, Laird 和 Rubin 提出 ) 是 一 个 反复 搜索 L(0) 的 局 部 最 大 值 的 算法 。 虽 然 
EM 不 能 保证 找到 全 局 最 大 值 ， 但 它 在 实践 中 取得 了 很 好 的 应 用 。 

EM 特别 适用 于 这 样 的 情形 ， 如 果 我 们 能 够 确定 隐 变 量 Y 的 取 值 ， 则 最 大 似 然 优 化 问 
题 是 非常 易于 处 理 的 。 更 精确 地 说 ， 定 义 关于 mxXk 和 矩阵 和 参数 6 的 函数 如 下 : 


m k 
F(Q,0) = t} >, Qi.vlog(P,LX = xi,Y = y]) 
i=] y=1 


如 果 Q 的 每 一 行 定义 给 出 X =x; 时 第 i 个 潜 变 量 的 概率 ， 那 么 我 们 将 F(Q，09) 解 释 为 训练 
E(x, Ms tts Cons Ym ANAT AWA. Fp, PBT et y: 的 近似 分 布 的 ， 
HIERE Q 的 第 i 行 所 确定 的 y; 的 近似 分 布 。 在 下 的 定义 中 ， 求 和 在 对 数 函 数 之 外 ， 并 且 
我 们 假设 这 使 得 关于 0 的 优化 问题 容易 人 处理: 


假设 24. 1 对 于 任意 QE[0，1]”， 如 果 QQ 的 每 一 行 求 和 都 是 ]， 那 么 优化 问题 
argmax F(Q,@) 


By iF 


EM 的 直观 的 想法 是 ,我 们 用 “ 鸡 生 和 蛋 ， 和 蛋 生 鸡 ” 的 思路 来 解决 问题 。 一 方面 ， 如 果 
我 们 已 知 Q， 那 么 由 假设 ， 找 到 最 优化 问题 的 最 优 解 9 是 容易 求解 的 。 另 一 方面 ， 如 果 我 
们 已 知 参数 96， 可 以 令 Q AEX =x; 时 Y 一 y 的 分 布 概率 。 因 此 ，EM 算法 在 给 定 Q 求 
解 6 和 给 定 9 求解 Q 之 间 交 替 。 从 形式 上 看 ，EM 算法 找到 解 的 序列 (QQ ，60 ) ，(Qc) ， 
9”),，…， 其 中 在 1 次 迭代 时 ， 我 们 通过 如 下 两 个 步骤 构造 (Q"+? ，65%+D ) 。 

o 期 望 步骤 (E Step): 令 

QE == Pua TY = yX =e] (24. 10) 
这 个 步骤 被 称 为 期 望 步 又 (expectation step)， 因 为 它 产 生 隐 变量 的 一 个 新 概率 分 
布 ， 从 而 定义 了 关于 6 的 一 个 新 的 预期 似 然 函 数 。 
© RAL R(M Step): 令 O°” 是 预期 似 然 函 数 的 极 大 值 点 ， 这 里 的 期 望 是 关于 
Crag. 
err? = argmax F(Q“? ,0) (24.11) 
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由 我 们 的 假设 ， 可 以 有 效 地 解决 这 个 最 优化 问题 
6 和 Q 的 初始 值 9 和 Q""" 通 常 是 随机 选取 的 ， 并 且 当 样本 集 的 对 数 似 然 度 不 再 显著 


增加 时 ， 算 法 的 迭代 过 程 终 目 ， 
24.4.1 EM 是 交替 最 大 化 算法 
为 分 析 EM 算法 ,我 们 首先 把 它 看 作 一 个 交 蔡 最 大 化 算法 。 定 义 如 下 目标 函数 
G(Q,0) = F(Q,0) — YYQ, ,log(Q,,) 
其 中 ,第 二 项 是 Q 的 每 一 行 的 炉 的 总 和 。 oO 
Q= (Qe [01I Yi DQ = 1) 
是 定义 集合 LAj 上 的 概率 分 布 的 矩阵 的 全 体 。 下 面 的 引 理 表明 ，EM 对 G 交替 进行 最 大 化 


IER . 
引 理 24.2 EM 和 迭代 过 程 可 以 重 写 为 
Cee = argmax GQP) 
EQ 
On min argmaxC(Q .0) 
进一步 ， G(OuTR 0” \= (0° j 
证 明 REQ”, BRA 
303 argmaxG(Q’""” ;0) = argmax F(Q“? , 0) 
因此 ， 我 们 只 需要 表明 ， 对 于 任何 0， argmaxG(Q, 0) 的 解 是 Q, =P Y =y X =x]. # 
实 上 ， 由 詹 生 不 等 式 ， 对 任何 QEQ， 我 们 有 
w o k 
_ LX == K; pr = y] 
G(Q.0)= >, (Z Q.slog( : Qy )) 
m k 
Fs = as <x = y | 
< 2, (loe( 272.5 “= —*) ) 
š k 
= J log( 23 PX = mY = y]) 


i=] 


= = 3) dog P,LX = x) = L(@) 
=P LY =y XS] 我 们 有 

py 4) 

PLY ylX =x] 


而 对 于 Q,, 
CQm= 3 (>) PLY = y|X = x, Jlog( 


B S 


= => > PLY = y|X =x, Jlog(P,[X = x,]) 


= 2s log(P,LX = «>> PLY = yX =x: | 


3 


= = >) log(P,LX = = x, ]) = L(@) 
这 表明 Qi, =P Y= are x 是 G(Q，90) 在 QEQ 上 的 极 大 值 点 ， 同 时 也 表明 GH” 
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a) =L te > 。 加 
前 面 的 引 理 直接 表明 : 
定理 24.3 在 EM 算法 中 ， 似 然 函数 是 单调 递增 的 ; 也 就 是 ， 对 任意 1 
LEY) 之 Le” ) 


证 明 由 前 面 的 引 理 有 
IT 二 Gio" .0 1) ) 之 GQ" ,0° ) L(g” ) E 


24.4.2 混合 高 斯 模型 参数 估计 的 EM 算法 


考虑 由 上 个 高 斯 分 布 构 成 的 高 斯 混合 分 布 ， 参数 8 ECFA Ce, (ps cers feds {Dis ots 
5), 其 中 P,[Y 一 y]==c, 县 Po[X 二 x|Y 了 二 yj 如 公式 (24.9) 所 示 。 为 简便 ,我们 假设 z = 
5 二 … 二 驴 二 IT， 其 中 了 为 单位 矩阵 。 在 这 样 的 情况 下 ，EM 算法 如 下 所 示 : 

E 步 : 对 每 个 i€ELmj] 和 yE[Lkj]， RITE 


Po LY = y|X = x]= z Po LY = y] Pwo LX = x lY = y] 
TF 二 c” M- ps? 2 
=F ? exp(— 5 | x, l) (24. 12) 


其 中 Z; 是 归 一 化 因子 ， 使 得 求 和 式 2 Pao [Y= 9|X=x, 1% 1, 


MAB: 我 们 需要 取 公 式 (24. 11) 的 最 大 值 点 0””， 也 就 是 使 得 下 式 最 大 化 的 参数 c 
All po : 
六 > Py [¥ = yX = x/] (loge, \— Fla, — py |?) (24. 13) 


i=l] 3 一 1] 


公式 (24. 13) 关 于 py 的 俩 导数 为 0， 整理 得 到 : 
x, = = >) Py LY = yX = a la 


EE» Hy JE xX; 的 加 权 平均 值 ， 其 中 权重 为 EE 步 中 得 到 的 后 验 分 布 。 为 找到 最 优 的 
c， 我 们 必须 仔细 以 保证 c 是 一 个 概率 分 布 回 量 。 在 练习 24. 3 中 ， 我 们 证 明了 最 优 解 为 


2 Poly =| =] 
MAES = ne (24. 14) 
2 dy Pow [Y= |X [g] 


将 上 述 算法 和 第 22 SEP AY k 均值 算法 相 比较 ， 是 很 有 意思 的 。 在 均值 算法 中 ， 我 们 首 
先 根据 距离 上 x; 一 ,| 将 每 个 样本 点 分 配 到 某 一 个 类 中 ， 然后 ， 我 们 将 类 中 心 u, 更 新 为 分 
配给 该 类 的 样本 的 平均 值 。 然 而 ， 在 EM 算法 中 ， 我 们 首先 确定 每 个 样本 属于 每 个 类 的 概 
率 。 然 后 ， 我 们 将 类 中 心 更 新 为 所 有 样本 的 加 权 平 均值 。 出 于 这 个 原因 ， 借 助 EM 算法 的 
k 均值 方法 有 时 被 称 为 “soft k-means”, 


24.5 贝 叶 斯 推理 


最 大 似 然 佑 计 是 遵循 频率 论 的 一 种 方法 。 这 意味 着 我 们 假定 参数 0 为 固定 参数 ， 只 是 
不 知道 它 的 取 值 。 还 有 一 种 参数 估计 方法 是 贝 叶 斯 推理 。 在 贝 叶 斯 方法 中 ， 关 于 参数 0 的 
不 确定 性 也 用 概率 来 描述 ， 也 就 是 说 ， 我 们 认为 参数 0 也 是 随机 变量 ， 其 先 验 分 布 为 
PL9]。 正 如 它 的 名 字 所 表示 的 ， 先 验 分 布 应 该 由 学 习 者 在 观测 到 数据 之 前 就 确定 。 
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作为 一 个 例子 ， 让 我 们 再 来 考虑 研发 了 一 种 新 药物 的 制药 公司 的 例子 。 根 据 过 去 的 经 


验 ， 制 药 公 司 的 统计 学 家 认为 ， 当 一 种 药物 已 到 了 临床 实验 的 阶段 ， 它 应 该 是 比较 有 效 


的 。 他 们 将 关于 0 的 先 验 信念 定义 为 如 下 的 分 布 : 


0. 8 #9>0.5 
nes (24. 15) 
PLO] 0.2 # 00.5 


和 前 面 一 样 ， 给 定 9 的 取 值 时 ,假定 条 件 概 率 PLX==x19j 是 已 知 的 。 在 制药 公司 的 例子 
H, X BUAF(O, 1}S¢BPLX=z 0] =F (1 一 0 一。 

一 日 确定 了 参数 0 的 先 验 分 布 和 给 定 9 时 X 的 条 件 分 布 ， 我 们 就 得 到 了 关于 X 分 布 的 
全 部 知识 。 这 是 因为 我 们 可 以 将 X 分 布 表示 为 边缘 概率 

PX =z] = > PIX =al 2 PLI PEX = x| 6] 
其 中 最 后 一 个 等 式 是 根据 条 件 概率 的 定义 得 到 。 如 果 参 数 0 EER, RIDA PLO] 
替换 为 密度 函数 ， 并 且 用 积分 代替 求 和 
eee | 二 | PEO PLX = xl6 a9 

表面 上 看 ， 一 旦 我 们 知道 PLX 王 zj， 训 练 集 S 二 (zi ，…，zx) 并 不 能 给 我 们 带 来 任何 
新 的 知识 ， 因 为 我 们 已 经 是 知道 新 的 样本 X 的 分 布 的 专家 了 。 然 而 ， 贝 叶 斯 观点 引入 S 
AX 之 间 的 依赖 关系 ， 这 是 因为 我 们 将 参数 9 看 作 随 机 变量 。 一 个 新 样本 点 X 和 前 面 训 
AES 关于 参数 9 是 条 件 独 立 的 。 这 是 与 频率 派 不 同 的 ， 频 率 派 认为 0 仅仅 是 分 布 的 参 
数 ， 而 新 样本 点 X 和 前 面 训 练 集 S 始终 是 独立 的 。 

在 贝 叶 斯 框架 中 ， 由 于 X 和 S 不 再 独立 ， 我 们 想 计算 的 是 给 定 S 时 X 的 概率 ， 由 链 
式 法 则 ， 可 以 写 为 如 下 : 


PIX = 2|S]= 2 PLX = 20.5] PUEIS] = 2 PLX = zx|9] PLIS] 
第 二 个 等 式 成 立 的 原因 是 : XAS 关于 参数 0 是 条 件 独立 的 。 由 贝 叶 斯 准则 ， 我 们 有 
PUOIS] = Presid ye 
根据 假设 ， 所 有 的 样本 关于 0 是 条 件 独 立 的 ， ann 
PL9ls] = PLS PA Pte) — Srey Ll PEX = 101 P00 
ane ela yn 叶 斯 预测 ; 


P[X = z183] =A PEX = lol I] PCX = x; |0] PLO] (24. 16) 
回 到 制药 公司 的 例子 中 ， 我 们 可 以 将 PLX 一 > Is] 重 写 为 
pixe alsi= aso a0 =o» P[ 拉 dg 
有 趣 的 是 ， 如 果 PLb 是 均匀 分 布 的 ， 我 们 有 
PLX = z|Sl|0 Zs apg ag 
求解 上 面 的 积分 (分 布 积分 法 ) 我 们 有 
(Diz ) 十 1 


PLX =1|S]= -ie 
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回忆 当 使 用 极 大 似 然 准则 时 ， 得 到 的 预测 为 PLX = 110] = 一 一 。 而 在 均匀 分 布 的 先 验 
下 ， 得 到 的 贝 叶 斯 预测 与 极 大 似 然 预测 是 十 分 相似 的 ， 区 别 是 它 加 入 了 “ 伪 例 ”， 利 用 均 
匀 的 先 验 对 预测 进行 了 调整 。 

最 大 后 验 法 

在 许多 情况 下 ， 对 于 等 式 (24. 16) 所 给 出 的 积分 ， 很 难 找到 其 封闭 形式 的 解 。 有 很 多 
数值 方法 可 用 于 近似 此 积分 。 男 一 种 流行 的 解决 办 法 是 寻找 一 个 使 得 PL91S 最 大 的 0 值 。 
使 得 PL91S 最 大 的 于 9 值 被 称 为 最 大 后 验 估 计 。 一 旦 这 确定 了 最 大 后 验 分 布 值 ， 我 们 根据 
X AS 的 条 件 独 立 性 计算 出 X 王 zz 的 概率 。 


24.6 小 结 
在 机 妖 学 习 的 生成 方法 中 ， 我 们 的 目标 是 模拟 数据 的 分 布 。 特 别 是 ， 在 参数 密度 估计 
中 ， 进 一 步 假 设 数据 的 潜在 分 配 具 有 特定 的 参数 形式 ， 我 们 的 目标 是 估计 分 布 的 参数 。 我 
们 已 经 描述 了 几 个 参数 估计 准则 ， 包 括 最 大 似 然 、 贝 叶 斯 估计 和 最 大 后 验 。 我 们 还 描述 了 
几 个 针对 潜在 分 布 的 不 同 的 假设 下 的 极 大 似 然 估计 的 具体 算法 ， 具 体 有 朴素 贝 叶 斯 、 线 性 
判别 分 析 和 EM 算法 。 
24.7 文献 评注 
20 世纪 初 ， 统 计 学 家 Ronald Fisher 开始 研究 极 大 似 然 准则 。 贝 叶 斯 学 派 源 于 贝 叶 斯 
准则 ， 是 以 18 世纪 的 英国 数学 家 Thomas Bayes 命名 的 。 
关于 机 需 学 习 中 的 生成 学 习 和 贝 叶 斯 方法 ， 有 很 多 优秀 的 专著 ， 如 Bishop(2006), 
Koller & Friedman(2009a), MacKay(2003), Murphy(2012). Barber(2012). 
24.8 练习 
24.1 WH: 关于 高 斯 变量 的 方差 的 极 大 似 然 估 计 是 有 偏 的 。 
24.2 极 大 似 然 估计 的 正则 化 : 考察 下 面 的 正则 损失 
1S og(1/ Pz) ++ (dog(1/0) 十 log(1/G 一 0))) 
© 证 明 上 述 的 优化 目标 等 价 于 将 训练 集中 加 入 两 个 “ 伪 例 ”。 验 证 上 述 的 正则 的 极 
大 似 然 估 计 的 解 为 
Â 1 = 
i 212) 
o 推导 | 6 一 0” | 的 概率 下 界 。 提 示 : 将 此 式 重 写 为 |0 一 (四 十 EE( 人 ) 一 9* | 并 利用 三 
角 不 等 式 和 Hoeffding 不 等 式 。 
© 用 此 概率 界 来 估计 真实 损失 。 提 示 : 借助 事实 8 一 上 5 将 |9 一 0" | 与 相对 精 联系 
起 来 。 
24.3 考虑 具有 如 下 形式 的 一 般 的 优化 问题 ， 
max | Wilona? &t ty > 0, die, =] 
其 中 veR 是 非 负 权重 向 量 。 
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e 验证 soft k-means 中 的 M 步 中 求解 了 这 一 优化 问题 。 


ec’ = ih > WEAR c* TPR ES. 
fy 


© 证 明 这 个 优化 问题 等 价 于 
minDre(c De) s. t.c, > 0, yo = ] 
o FAFAAAXT RAS PEI, SE c* 是 优化 问题 的 最 优 解 。 
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在 本 书 的 开头 ， 我 们 讨论 了 学 习 的 抽象 模型 ， 在 这 个 抽象 模型 中 ， 完 全 是 通过 对 假设 
类 的 选择 来 编码 利用 先 验 知识 。 然 而 ， 还 有 另 一 种 目前 没有 讨论 的 模型 选择 方法 : 如 何 表 
示 样 本 空间 X? 例如 ， 在 木瓜 学 习 问 题 中 ， 我 们 提出 了 光滑 性 和 颜色 两 个 维度 的 矩阵 假设 
类 。 也 就 是 说 ， 第 一 个 假设 就 是 ， 在 完成 从 平面 到 标签 集 映射 的 矩形 假设 类 之 后 ， 就 可 以 
用 二 维 平面 上 的 点 来 对 应 表示 木瓜 的 光滑 性 和 颜色 。 这 种 从 现实 世界 的 木瓜 到 用 数值 来 表 
示 它 的 光滑 性 和 颜色 的 变换 ， 我 们 称 之 为 特征 函数 ， 简 称 特征 。 也 就 是 说 ， 任 何 对 现实 世 
界 物体 的 度量 可 以 认为 是 一 种 特征 。 如 果 “ 是 回 量 空间 的 一 个 于 集 ， 每 一 个 ZE 区 有 时 候 称 
之 为 特征 向 量 。 理 解 我 们 如 何 利用 问题 相关 的 先 验 知识 ， 将 现实 世界 物体 编码 为 输入 空间 
区 的 方式 是 非常 重要 的 。 

更 深入 地 说 ， 即 使 已 经 将 输入 空间 Xt 表示 成 一 个 向 量 空间 的 子 集 ， 我 们 可 能 还 是 想 改 
变 它 的 表示 形式 ， 然 后 在 新 的 表示 形式 上 应 用 假设 类 。 也 就 是 说 ,我 们 可 能 定义 一 个 化 的 
假设 类 ， 通 过 在 某 种 能 将 向 量 空 间 映 射 为 * 的 特征 函数 上 定义 假设 类 来 实现 。 我 们 已 经 
碰 到 过 这 样 的 例子 ， 在 第 15 章 中 ， 可 以 看 到 基于 核 的 支持 向 量 机 算法 ， 通 过 在 源 空间 样 
本 到 希 尔 伯 特 空间 的 特征 映射 亚 上 学 习 每 一 个 两 类 分 类 右 来 实现 。 确 实 ， 选 择 亚 是 男 
一 种 应 用 先 验 知识 来 处 理 问题 的 方法 ，。 

在 这 一 章 中 ， 我 们 研究 构建 一 个 好 的 特征 集 的 几 种 方法 。 首 先 讨论 特征 选择 问题 ， 特 
征 选择 就 是 从 特征 池 大 量 特征 中 选择 少量 用 于 构建 预测 需 的 特征 。 然 后 ， 讨 论 针 对 特征 的 
操作 和 特征 归 一 化 ， 这 些 特征 变换 将 降低 学 习 算 法 的 样本 复杂 度 ， 预 测 器 的 偏 置 以 及 计算 
复杂 度 。 最 后 ， 我 们 讨论 几 种 特征 学 习 的 方法 ， 在 这 几 种 方法 中 ， 我 们 尝试 自动 完成 特征 
构建 的 过 程 。 

我 们 强调 ， 虽 然 有 很 多 可 以 尝试 的 共同 的 特征 学 习 方 法 ， 但 是 “没有 免费 的 午餐 ” 理 
论 指出 不 存在 一 种 能 处 理 所 有 问题 的 极端 特征 学 习 器 ， 任 何 特征 学 习 器 都 有 可 能 在 某 些 问 
题 上 失败 。 换 句 话 说， 每 一 个 特征 学 习 器 的 成 功 依赖 于 数据 分 布 的 某 种 先 验 假设 形式 (有 
时 候 这 种 先 验 假设 可 能 不 那么 明显 )。 进 一 步 说 ， 特 征 的 质量 高 度 依赖 我 们 后 期 所 使 用 的 
学 习 算 法 。 下 面 的 例子 给 出 了 说 明 。 


考虑 一 个 回归 问题 ， 世 = 本 ，J 一 了 及， 损失 函数 使 用 平方 损失 。 给 出 样本 的 潜 
在 分 布 ， 样 本 (x，y) 是 这 样 产生 的 : 首先， 从 [一 1，1]j 的 均匀 分 布 上 采样 xz， 然后 ， 确 
切 地 令 y 一 x1*。 最 后 ， 第 二 个 特征 集 是 zs 二 y 十 z， 这 里 z 是 从 [一 0.01，0.01] 的 均匀 分 
布 上 采样 得 到 。 假 定 我 们 只 想 选 用 一 个 特征 。 直 观 上 ， 单 独 使 用 第 一 个 特征 要 比 单独 使 用 
第 二 个 特征 更 好 。 的 确 ， 如 果 我 们 应 用 次 数 大 于 2 的 多 项 式 回归 方法 ， 那 么 第 一 个 特征 是 
正确 的 选择 。 然 而 ， 如 果 使 用 线性 回归 器 ， 我 们 应 当 更 倾向 于 选择 第 二 个 特征 ， 这 是 因 
为 : 对 于 最 优 的 线性 分 类 器 ， 使 用 第 一 个 特征 的 风险 大 于 使 用 第 二 个 特征 的 风险 。 所 


25.1 特征 选择 
在 这 一 节 中 ， 我 们 假定 + 二 Ri。 也 就 是 说 ， 每 一 个 样本 可 以 用 4 个 特征 的 向 量 表示 。 
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我 们 的 目标 是 学 习 一 个 仅 依赖 于 个 特征 的 预测 器 ,，k 远 小 于 4d。 使 用 少量 的 特征 的 预测 
器 要 求 更 少 的 内 存 空 间 ， 并 且 计 算 速 度 更 快 。 并 且 ， 在 像 医 疗 诊 断 这 样 的 应 用 中 ， 获 取 可 
能 的 特征 (例如 测试 结果 ) 费 用 昂贵 。 因 此 ， 即 使 在 性 能 上 与 使 用 大 量 特征 相 比 有 些 退化 ， 
使 用 少量 特征 的 预测 器 也 是 有 需求 的 。 最 后 ， 约 束 假设 类 使 用 少量 特征 构成 的 子 集 能 降低 
估计 误差 ， 防 止 过 拟 合 。 

理想 情况 下 ， 我 们 尝试 d 个 特征 的 所 有 上 个 特征 组 合 ， 然 后 选择 最 优 预测 结果 对 应 的 
特征 子 集 。 然 而 ， 这 种 穷尽 搜索 方法 通常 在 计算 上 是 不 可 行 的 。 接 下 来 ， 我 们 描述 三 种 计 
算 可 行 的 特征 选择 方法 。 虽 然 这 些 方法 不 能 保证 一 定 找 到 最 优 的 特征 子 集 ， 但 是 它们 通常 
都 能 在 实践 中 取得 相当 好 的 结果 。 一 些 特征 选择 方法 还 可 以 在 菜 些 假设 条 件 下 形式 化 保证 
特征 选择 子 集 的 质量 。 我 们 在 这 里 不 讨论 这 些 质量 保证 的 内 容 。 


25. 1. 1 滤波 器 

滤波 方法 可 能 是 最 简单 的 特征 方法 ， 在 滤波 方法 中 ， 我 们 将 某 些 特征 看 做 独立 于 其 他 
特征 ， 然 后 根据 一 些 质量 度量 标准 来 估计 这 些 独立 特征 。 我 们 选择 & 个 获得 最 高 评分 的 特 
征 ( 此 外 ， 也 可 以 依据 最 好 的 评分 确定 特征 的 数量 ) 。 

文献 中 已 经 提出 了 很 多 质量 评价 的 方法 。 最 直接 的 方法 可 能 是 依据 预测 期 的 错误 率 来 
获得 特征 的 评分 ， 这 些 预测 需 是 通过 竺 评估 特征 单独 训练 而 得 到 的 。 

为 了 说 明 这 个 ， 我 们 考虑 采用 平方 损失 的 线性 回归 问题 。 令 v= laj s mj) ER” 
表示 m 个 训练 样本 第 7 个 特征 值 形 成 的 向 量 ， 令 y= Cys ots Ym) ER” 表示 m 个 样本 的 
目标 值 。 仅 使 用 第 7 个 特征 的 经 验 风险 最 小 化 线性 预测 器 的 经 验 平方 损失 是 


v X ing 
min — lav +b y| 
在 这 里 加 2 的 含义 是 : v 的 所 有 维度 的 值 都 加 上 22。 为 了 求解 这 个 最 小 化 问题 ， 邻 万 = 
L D) o 表示 特征 的 平均 值 ， 令 7 一 二 》) y 表示 目标 的 平均 值 。 显 然 ( 见 练习 25. 1)， 
i=] i=] 
min — lav +b— y|? = min Jaw -d +6—(y— DDI C251) 


等 式 右 边 对 2 求 导 ， 令 导数 等 于 0， 我 们 得 到 O=0. ME, MPa RS. 4 b=0 时 ， 我 们 得 
到 | a=(o—-v, y—y)>/|l v—v||? ` 将 a, b 的 值 代 人 目标 函数 ， 我 们 得 到 
1y 3 — 
依据 最 小 平方 损失 对 特征 排序 ， 等 同 于 依据 下 面 评分 的 绝对 值 进行 排序 (这 里 高 分 表 
示 好 的 特征 ): 


—— -(y—U,y—J) 
(u= myy) o a E 


lv—vl ly—yl 1 ¢ jt 
= — a =. .= 
lv —vl? ,/>ly— yl 


上 面 的 表达 式 被 称 为 皮尔 森 相 关系 数 。 分 子 表 示 第 j) NREM A te (7 % CEL ou Ew) (y 一 
By) j) 的 经 验 估计 ， 而 分 母 表示 第 7 个 特征 方差 (EL(o 一 Bo)2]) 乘 上 目标 值 所 得 方差 经 验 估计 
的 均 方 根 。 皮 尔 森 相关 系数 的 取 值 范围 为 一 1 到 1， 这 里 如 果皮 尔 森 相关 系数 等 于 1 或 一 1， 
表示 v 和 了 之 间 有 线性 映射 关系 ， 且 经 验 风险 等 于 0, 

如 采 皮 尔 森 相关 系数 等 于 0， 表示 v 到 y 的 最 优 线性 映射 为 各 个 维度 都 等 于 0， 这 就 


(29. 2) 
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是 说 单独 只 用 v 不 足以 预测 y。 但 是 这 并 不 意味 着 v 是 一 个 坏 的 特征 ， 比 如 可 能 出 现 这 种 
情况 ，w 和 其 他 特征 组 合 起 来 能 很 好 地 预测 y。 的 确 ， 考 虑 一 个 简单 的 例子 ， 目 标 通 过 咯 


数 y= 二 zx! 十 2zs 来 产生 。 假 定 zi 是 由 { 士 1} 上 的 均匀 分 布 产 生 ， 而 m=— prt sz, 这 里 


z 也 是 由 { 士 1} 上 的 均匀 分 布 产生 。 那 么 ，BELz j= 二 ELzxsj] 二 BLyj 二 0 ， 我 们 可 以 得 到 
ELyz:] = ELz? }+2ELa2.x2, ] = Elri] — Elri] +ELzrı] = 0 
因此 ， 对 于 足够 大 的 训练 集 ， 第 一 个 特征 的 皮尔 森 相 关系 数 很 可 能 等 于 0， 因 此 它 很 可 能 
不 被 选择 。 然 而 ， 如 果 不 知道 第 一 个 特征 ， 没 有 函数 能 够 很 好 地 预测 目标 值 。 
还 有 很 多 其 他 的 评分 函数 可 以 用 于 滤波 方法 。 著 名 的 评分 图 数 的 例子 是 互信 息 估 计 或 
者 接受 操作 特征 (ROC) 曲 线 的 面积 。 所 有 这 些 评分 孔 数 都 受 先前 说 明 例 子 类 似 的 制约 ， 我 
们 推荐 读者 阅读 Guyon 和 Elisseeff (2003). 


25.1.2 AWENA 

贪 禁 选择 是 男 一 个 盛行 的 特征 选择 方法 。 和 滤波 方法 不 同 ， 贪 禁 选 择 方法 伴随 着 学 习 
算法 。 最 简单 的 贪 禁 选择 的 例子 是 前 向 贪 禁 选 择 方法 。 我 们 从 一 个 空 集 开始 ， 然 后 逐步 每 
次 添加 一 个 特征 到 选择 的 特征 集 。 给 定 当 前 选择 的 特征 集 TI， 我 们 人 遍历 所 有 的 1K I， 然后 
在 IU {特征 集 上 应 用 学 习 算 法 。 每 一 个 这 样 的 应 用 取得 一 个 不 同 的 预测 器 ， 我 们 选择 添 
加 特征 使 得 预测 右 的 风险 最 小 (在 训练 集 或 者 验证 集 )。 持 续 这 个 过 程 直 到 我 们 选择 了 个 
特征 ， 这 里 & 表示 预先 定义 的 可 以 承担 的 特征 数 ， 或 者 得 到 一 个 足够 精度 的 预测 需 。 

( 正 交 匹配 追踪 ) ”为 了 说 明 前 向 贪 禁 选 择 方法 ， 我 们 具体 化 到 使 用 平方 损失 
的 线性 回归 问题 。 令 XER B—PA m 个 训练 样本 行 的 矩阵 。 令 yE R" 表示 m 个 标签 
构成 的 向 量 。 对 于 每 一 个 i€ Ldj, S X: 表示 X 的 第 i 列 。 给 定 一 个 集合 ICd], 我 们 用 
XI 表示 列 为 {Xi;:i€ 了 0 的 和 矩阵。 

前 向 贪 禁 选择 方法 从 五 三 和 开始， 在 第 上 次 迭代 ， 我 们 寻找 第 j, 个 特征 ， 使 得 

argmin IXy vo wo— yl? 
那么 ， 我 们 更 新 L= U ENF 遂 

现在 ,我们 描述 一 种 针对 线性 回归 问题 更 加 高 效 的 执行 前 向 贪 禁 选择 的 方法 ， 称 之 为 
正 交 匹配 追踪 。 保 持 正 交 的 想法 基于 到 目前 为 止 的 特征 集合 。 令 V, 表示 基于 Xi 的 列 正 交 
形成 的 矩阵。 显然 ， 

min||X;w— yl’ = minl Vð — a 
w oE 
我 们 将 申明 一 个 0, 使 得 等 式 右 边 最 小 化 。 

首先 ， 令 h= ø, V=, 0 表示 空 问 量 。 在 t 个 循环 ， 对 于 每 一 个 j， 我 们 分 解 
X= tu, XH v =V Va xX; 是 X; 在 Vi 张 成 的 子 空 间 上 的 投影 ，w; RX 与 
Vi1 正 交 的 部 分 。 那么 ， 

min|| V0 + au, —yll’ 
一 min[ (V0 — yl? +e? lu l? + 204u;,.Vii0—y) ] 
=min| 1 6 一 yl? +a’ | uj ||? af- 2a (u; j y)] 
=min[ | V0 — yll? J+ min[a lu; |? — 2a<u; sy) ] 
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=| Vb 一 列 十 min[ a’ | uj |? = Za tu; sy) | 


=| Vri — yl — Kuy? 


|u; |? 
也 就 是 ， 我 们 应 当选 择 特征 ， 使 得 
2 二 (wj yy>) 
J: ~ argmax fu, [2 


其 余 的 更 新 如 下 : 
V, = [We ‘Te fede 一 T AR: lu a ET 
正 交 匹配 追踪 算法 过 程 申明 了 一 组 被 选 特征 的 正 交 基 ， 通 过 过 程 摘 述 可 以 看 出 ， 正 交 
属性 是 通过 一 种 类 似 于 施 密 特 正 交 化 方法 获得 的 。 应 用 中 ， 施 密 特 正 交 化 方法 通常 数值 不 
稳定 。 在 下 面 的 伪 代 码 中 ,我 们 使 用 SVD( 见 C. 4 节 ) 在 每 一 个 循环 的 结束 之 前 以 数值 稳 
定 方式 获得 一 组 正 交 基 。 


正 交 匹配 追踪 算法 (OMP ) 


输入 : 
数据 矩阵 XER" ， 标 签 向 量 yER” 
最 大 特征 数量 T 
初始 化 : l= 
F t=, = T 
使 用 SVD 方法 找到 X, 的 一 组 正 交 基 VE 到 " |! 


对 于 每 一 个 jEldj\l， 4 u;=X;—VV X; 
l ({u;, y>)? 
& j,=argmaxye¢ 1: Il u, ll >0 Tad? 
更 新 ILa = LU (j) 
输出 : Tre 





1. 更 高 效 的 贪 禁 选择 准则 
今 R(w) 表 示 向 量 w 的 经 验 风险 。 在 前 向 贪 禁 选 择 方法 的 每 一 个 循环 ， 对 于 每 一 个 可 
能 的 7， 我 们 应 当 最 小 化 R(w) 关 于 由 L U1{7) 支 持 的 w， 这 种 方法 可 能 计算 上 很 费时 。 
一 个 简单 的 近似 方法 是 选择 j, 最 小 化 下 面 的 式 子 : 
argmin minki w + ye;) 


这 里 ，e 表示 除 第 j 个 元 素 为 1 之 外 ， 其 他 元 素 都 为 0 的 向 量 。 也 就 是 说 ， 我 们 保持 先前 
选择 的 维度 不 变 ， 仅 仅 优化 新 加 入 的 变量 。 因 此 ， 对 于 每 一 个 7 我 们 需要 求解 关于 一 个 单 
变量 的 优化 问题 ， 这 会 比 优化 :上 容易 得 多 。 

一 个 更 加 简单 的 方法 是 由 一 个 简单 函数 表示 上 界 ， 选 择 新 加 入 特征 使 得 上 界 有 最 大 的 
数值 下 降 。 例 如 ， 如 果 尺 是 8- 光 滑 函 数 ( 见 12 章 方程 (12. 5))， 那 么 


RCw + we;) <R(w) +qw + By? /2 
j 


关于 MERRIE, Mm «2, 将 7 代入 不 等 式 , 可 得 
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R(z 十 7ej) < R(w) —% fea) 
SR WKF w 的 偏 导数 取得 最 大 时 ， 上 式 取得 最 小 值 。 因 此 ， 我 们 可 以 选择 j， 
使 得 R(w) 关 于 w 的 梯度 最 大 的 维度 。 
评注 (AdaBoost 作为 一 个 前 向 贪 禁 选 择 过 程 ) 有 可 能 将 第 10 章 介绍 的 AdaBoost 算 


法 解析 为 一 种 关于 以 下 函数 的 前 向 贪 柳 选 择 过 程 : 
R(w) = log( >} exp(—y; >) wh; (x;)) ) (25. 3) 

见 练习 25.3. 
”2. 反 向 终止 算法 

尺 一 个 盛行 的 贪 禁 选 择 方法 是 反 回 终止 算法 。 这 里 ， 我 们 从 全 部 特征 组 成 的 集合 开 
始 ， 然 后 逐步 从 特征 集合 中 一 次 减少 一 个 特征 。 给 定 我 们 当前 选择 的 特征 集 I \ {i} 。 每 一 
个 这 样 的 做 法 取得 一 个 不 同 的 预测 器 ， 然 后 我 们 选择 去 掉 特 征 守 使 得 预测 器 从 特征 集 
I {引得 到 最 小 的 风险 (在 训练 集 或 者 验证 集 上 )。 

本 质 上 ， 有 很 多 可 能 的 反 向 终止 算法 的 变形 方法 ， 结 合 前 向 贪 禁 和 反 向 贪 禁 步骤 也 是 
有 可 能 做 到 的 。 


25.1.3 PATOMA 


最 大 特征 数量 为 的 经 验 风 险 最 小 化 问题 可 以 写成 
minLs(w) st. lwl <k 
XE, 9 
| w llo = | {i sw; = 0} | 
换 句 话说 ,我 们 希望 w AHN, hee APSE w 不 为 0 的 特征 。 
求解 这 个 优化 问题 是 计算 困难 的 (Natarajan 1995, Davis, Mallat& Avellaneda 


1997) 。 一 个 可 能 的 松弛 方法 是 使 用 4 A wlos Iwl = Ži |w; | ， 然 后 求解 下 面 


的 问题 : 
minLs(w) s.t. | wl,<&, (25. 4) 
这 里 包 是 一 个 参数 。 由 于 4 WREDA, RHA RAY, BN ALT Rek 
解 。 另 一 个 相关 的 问题 是 最 小 化 工 s(z) 和 4& 范 数 正则 项 之 和 ， 
min(Ls(w) +Allw li) (25. 5) 


这 里 4 是 正则 项 参数 。 由 于 对 于 任意 的 存在 4 使 得 方程 (25. 4) 与 方程 (25. 5) 取 得 同样 的 
优化 结果 ， 在 某 种 意义 上 说 这 两 个 问题 是 等 价 的 。 

£ 正则 项 通常 导致 稀疏 的 优化 结果 。 为 了 说 明 这 一 点 ， 让 我 们 处 理 如 下 简单 的 优化 
问题 ， 


min (1? — zw +a lw] ) (25. 6) 


wER 


容易 验证 ( 见 练习 25. 2) ， 可 以 使 用 软 阔 值 方法 优化 这 个 问题 ， 


O Kl > lo MAHAL, 范 数 ， 尽 管 使 用 范 数 描述 ，|| e lo 不 是 真正 的 范 数 。 例 如 ， 它 不 满足 范 数 的 正 同 
质 属 性 ， || aw || ~~] | |w ||, 
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w = sign(z) [|x|—Aal (25. 7) 


这 里 [a], 兰 max{ta，0}。 也 就 是 说 ， 只 要 2 的 绝对 值 小 于 *， 最 优 结果 将 会 使 得 ww 的 值 置 


为 0。 
然后 ， 考 虑 使 用 平方 损失 的 一 维 回归 问题 : 


argmin( 3- pe (ziw — yi) +A| w| ) 
we R” i=] 
我 们 可 以 重 写 这 个 问题 为 
argmin( (= 252: jw — (= - 2 tiv jw +a] tw] ) 


WT ite, RABEL D 地 = 1， 表示 (xz， 罗 = > ziy,， 那 么 最 优 解 为 


w = sign((x,y)) [| <x, m | /m—à] 
也 就 是 说 ， 结 果 将 等 于 0， 除 非特 征 x 和 标签 向 量 y 的 相关 系数 大 于 )。 
评注 “和 4& WAAL. & WRASSE SGT. WH. SRP Ae, 范 数 问题 ， 


argmin (7 H (rw — y) + Aw ) 
we R” oa i=] 


那么 ， 最 优 解 为 
(x,y)/m 
~ Tx]? /m+ 2a 


这 个 解 将 不 会 等 于 0， 即 使 x My 的 相关 系数 很 小 。 相 比 而 言 ， 和 我 们 先前 描述 的 一 样 ， 
当 使 用 & 范 数 ， 只 有 在 x 和 y 的 相关 系数 大 于 4 时 ，w 才 会 非 0。 


argmin (1Xw— yl? +l wl ) (25. 8) 


在 关于 分 布 和 正则 项 参数 1 的 一 些 假 设 之 下 ，LASSO 将 会 得 到 系数 解 ( 参 见 ， 例 如 
Zhao & Yu(2006) 和 其 中 的 参考 文献 ) 。 刀 范 数 的 男 一 个 优势 就 是 使 用 & 范 数 的 向 量 将 被 
稀 朴 化 (人 参见， 例如 Shalev-Shwartz, Zhang 和 Srebro(2010) 和 其 中 的 参考 文献 ) 。 


25.2 特征 操作 和 归 一 化 


特征 操作 或 归 一 化 包括 在 每 一 个 源 特征 上 的 简单 变换 。 pote ger 
的 近似 误差 或 估计 误差 更 低 或 者 能 够 得 到 一 个 更 快 的 算法 。 与 特征 选择 的 问题 相似 ， 这 
没有 绝对 好 或 绝对 不 好 的 变换 ， 更 可 能 的 是 每 一 个 特征 变换 oihremstiel reader 
法 以 及 这 个 问题 相关 的 先 验 假设 密切 相关 。 

从 归 一 化 的 动机 ， 考 虑 使 用 平方 损失 的 线性 回归 问题 。 令 XE 到 “是 一 个 行为 样本 向 
EKER, $ y€ R” 表示 目标 值 向 量 。 回 想 下 岭 回归 返回 的 向 量 ， 


argmin| 元 |Xw — yl +all w|? |= (2AmI + X'X) 1 XT y 


假定 d= 王 2， 并 且 湾 在 的 数据 分 布 如 下 。 首 先 ， 从 !{ 士 1} 上 均匀 随机 采样 yv An, RE xz = 
y 十 0. 5a, XE a 是 ! 士 1}) 上 均匀 随机 采样 ， 我 们 令 zx; = 二 0.0001y。 注 意 最 优 权 值 向 量 w* = 
(0, 10000], 并 且 Lp (w* ) 王 0。 然 而 ， 岭 回归 在 w* 的 目标 值 为 和 108 。 E 


H AH ERRRURTE w=|[1; 0 的 值 可 能 是 0.25 十 4*4。 也 就 是 任何 时 候 A> 





ai > 200, 25 X10°% 9 
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岭 回 归 的 目标 函数 值 小 于 子 优化 w 二 [1; 0]。 由 于 典型 的 应当 不 小 于 1/m( 见 第 13 BEA ot 
析 )， 在 如 下 的 例子 中 ， 如 果 样 本 数 小 于 10* ， 那 么 我 们 很 可 能 输出 子 优化 的 解 。 

上 面 例子 的 关键 是 两 个 特征 有 完全 不 同 的 尺度 。 特 征 归 一 化 能 够 克服 这 个 问题 。 有 很 
多 方法 可 以 实现 特征 归 一 化 ， 最 简单 的 方法 是 使 每 一 个 特征 得 到 的 值 都 在 一 1 到 1 范围 内 。 


在 上 面 的 例子 中 ， 如 果 我 们 将 每 一 个 特征 除 以 最 大 值 ， 将 获得 x, — L zs 一 y， 屠 


么 对 于 4 三 10 飞 ， 岭 回归 的 解 与 w* 非常 接近 。 

更 进一步 ， 我 们 在 第 13 章 对 于 正则 最 小 损失 获得 的 泛 化 误差 界 依 赖 于 最 优 辣 量 w” 的 
范 数 和 样本 向 量 的 最 大 范 数 9 。 因 此 ， 对 于 前 面 的 例子 ， 在 归 一 化 特征 之 前 ， 我 们 得 到 
Tw |? 二 10;， 归 一 化 特征 之 后 ,我 们 得 到 上 w* 用 和 1。 样本 向 量 的 极 大 范 数 归 一 化 前 后 大 
致 差不多 ， 但 是 归 一 化 极 大 改善 了 估计 误差 。 

特征 归 一 化 也 能 改善 学 习 算 法 的 运行 时 间 。 例 如 , 在 14. 5.3 节 ， 我 们 已 经 讨论 了 如 
何 应 用 随机 梯度 下 降 优 化 算法 来 解决 正则 损失 最 小 问题 。SGD FEE TEAR BC oe Pa a AY aR 
代 次 数 依赖 于 w 的 范 数 和 极 大 范 数 |xzl|。 因 此 ， 和 之 前 表述 的 一 样 ， 使 用 特征 归 一 化 能 
大 大 降低 SGD 算法 的 运行 时 间 。 

接 下 来 ， 我 们 展示 一 个 类 似 于 裁剪 这 样 的 简单 特征 变换 如 何 降低 假设 类 的 近似 误差 。 
考虑 平方 损失 的 线性 回归 问题 。 令 ao 二 1， 且 a 是 一 个 很 大 的 数 ， 假 定 目标 值 > 是 { 士 1) 上 
随机 均匀 采样 得 到 的 ， 并 且 单 个 特征 工 到 > 的 概率 是 (1 一 1/a)， x 到 ay 的 概率 是 1/a。 也 
就 是 说 ， 大 多 数 时 候 我 们 的 特征 是 有 界 的 ， 但 是 有 小 概率 取得 很 大 的 值 。 那 么 ， 对 于 任意 
w, w 的 均 方 损失 的 期 望 是 


Lp (w) = B Cur — vy)? 
= (1——) Fay — 9) ++ F(awy =y) 


求解 w， 我 们 得 到 w =A, 当 a 趋 于 无 穷 时 ，w* Fo., Al, 4a 趋 于 无 穷 时 ， 


TE w" 点 的 目标 函数 值 趋 于 0.5。 例 如 ， 当 wa 王 100 时 ， 我 们 得 到 Lp (w* 0.48, HERR, 
我 们 假定 应 用 一 个 裁剪 变换 。 也 就 是 说 ， 使 用 变换 z Wsign(x)min{1, |x|}, BA, R 
随 这 个 变换 ，w” 变 为 1，Lp (w” ) 二 0。 这 个 简单 的 例子 显示 一 个 简单 的 变换 会 对 近似 误 
差 造成 很 大 影响 。 

当然 ， 不 难 想到 这 样 的 例子 ， 同 样 的 特征 变换 实际 上 损坏 性 能 且 增 加 近似 误差 。 这 并 
不 奇怪 ， 就 像 我 们 之 前 已 经 申明 的 特征 变换 应 当 依 赖 对 问题 的 先 验 假设 。 在 前 面 的 例子 
中 ， 一 个 先 验 假设 是 : 值 大 于 预定 义 的 阔 值 不 会 提供 任何 有 用 的 信息 ， 因 此 我 们 可 以 将 它 
们 裁剪 到 预定 义 的 靖 值 。 这 个 先 验 假设 导致 我 们 使 用 裁剪 变换 。 


特征 变换 的 例子 
我 们 现在 列 出 几 种 特征 变换 的 通用 技术 。 通 常 ， 合 并 几 种 特征 变换 也 是 有 帮助 的 ( 比 
O ”更 加 精确 地 说 ， 在 第 13 章 描 述 的 正则 损失 最 小 化 的 界 依赖 于 | we |]? 和 利 普 希 茨 性 或 损失 函数 的 光滑 性 。 


对 于 线性 预测 器 和 损失 函数 的 形式 E(z，(r，y)) 一 内 (zw，x)，y)， 这 里 # 是 西 的 ， 关 于 第 一 个 变量 1 - 利 
普 希 茨 或 1- 光滑。 或 者 是 ‖ 儿 z | -AFREK RA lll -光滑 。 例如， 对 于 均 方 损失 ,#$(a，y) = 


FUI, Hw, Ge =F Cw. x) — y)? 是 关于 第 一 个 变量 | x||? -光滑 ， 
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如 ， 中 心 化 十 尺度 变换 )。 接 下 来 ， 我 们 用 S= Go = fa) ER RRE m 个 训练 样本 上 
的 特征 f. 同样， 我 们 用 了 一 二 D) 广 表示 所 有 样本 特征 的 经 验 均值 。 


中 心 化 : 
通过 变换 广 一 广 一 7， 这 个 变换 使 得 特征 有 0 均值 。 

归 一 化 范围 : 

这 个 变换 使 每 一 个 特征 的 范围 都 是 [0，1]。 形 式 上 ， 令 fw =maxifi 并 且 fw 一 


pins Fs BA 我 们 设置 f+ 了 一 Ae, 类似 地 ， 我 们 可 以 使 每 一 个 特征 的 范围 为 [一 1， 








i], eo 


是 用 户 自 定义 的 参数 。 

标准 化 : 

这 个 变换 使 所 有 特征 有 0 均值 和 1 方差 。 形 式 上 ， 令 v= >) iP)? 表示 特征 的 
经 验方 差 ， 那 么 设置 f=, 

裁剪 变换 : 

这 个 变换 裁剪 特征 的 高 什 或 者 低 值 。 例 如 fi=—sign’ maxlb, | fil }， 这 里 5 是 用 户 
自 定义 参数 。 

Sigmoidal 变换 : 


像 名 字 表 示 的 那样 ， 这 个 变换 在 特征 上 用 到 了 sigmoid 函数 。 例 如 firr 


这 里 8 是 用 户 自 定 义 参数 。 这 个 变换 可 以 认为 是 一 种 软 版 本 的 裁剪 变换 。 它 对 接近 于 0 的 
值 有 一 些 作 用 ， 并 且 与 远离 0 的 裁剪 变换 很 相似 。 

对 数 变换 : 

这 个 变换 是 六 <log( 十 态 )， 这 里 2 是 用 户 目 定义 参数 。 这 个 变换 广泛 地 用 于 当 特 征 
是 计数 型 特征 的 情况 。 例 如 ， 假 定 特征 表示 在 一 个 文档 中 某 个 词 出 现 的 次 数 。 那 么 ， 某 个 
词 出 现 一 次 与 没有 出 现 的 区 别 ， 要 比 一 个 词 出 现 1000 次 还 是 1001 次 更 为 重要 。 

评注 在 先前 的 变换 中 ， 每 一 个 特征 的 变换 是 基于 在 训练 集 获得 的 值 ， 独 立 于 其 他 特 
征 值 。 在 某 些 情况 下 ,我们 也 想 基于 其 他 特征 值 来 设置 变换 的 参数 。 一 个 著名 的 例子 就 是 
在 特征 上 应 用 尺度 变换 ， 这 个 尺度 变换 使 得 样本 的 范 数 的 经 验 平均 值 为 1。 


25.3 特征 学 习 

到 目前 为 止 ， 我 们 已 经 讨论 了 特征 选择 和 特征 操作 。 在 这 些 情 况 下 ， 我 们 用 预定 义 的 
HEZE R 表示 特征 。 那 么 ， 我 们 选择 一 个 特征 子 集 ( 特 征 选择 ) 或 者 单个 特征 的 变换 ( 特 
征 变 换 )。 在 这 一 节 中 ， 我 们 描述 特征 学 习 ， 从 一 些 样本 空间 上 上 开始， 学 习 一 个 函数 Jy: 一 
R’, AAEN R ROR ERRIA] 4 维特 征 向 量 。 

特征 学 习 的 概念 就 是 自动 地 找到 输入 空间 的 好 的 表示 的 过 程 。 像 上 面 描述 的 那样 ， 
“没有 免费 的 午餐 ”理论 告诉 我 们 必须 在 数据 分 布 上 应 用 先 验 知识 ， 从 而 建立 好 的 特征 表 
示 。 在 这 一 人 中 ， 我 们 介绍 一 些 特征 学 习 算 法 ， 并 且说 明 这 些 方法 能 够 应 用 的 潜在 数据 分 
WAL 
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目前 ,我 们 已 经 介绍 了 几 种 有 用 的 特征 构建 方法 。 例 如 ， 在 多 项 式 回归 中 ， 我 们 将 源 
特征 映射 到 所 有 单项 式 构 成 的 向 量 空间 ( 见 第 9 章 9. 2. 2 节 ) 。 执 行 特征 映射 之 后 ， 我 们 在 
构建 特征 上 训练 一 个 线性 预测 器 。 这 个 过 程 的 自动 化 可 以 学 到 一 个 变换 yp: XR’, RPE 
换 由 定义 在 少 上 的 线性 预测 器 假设 类 组 成 ， 得 到 一 个 好 的 假设 类 用 于 实际 问题 处 理 。 

接 下 来 ,我 们 描述 一 种 特征 构建 的 方法 ， 称 为 字典 学 习 。 


用 自 编码 实现 字典 学 习 

字典 学 习 的 动因 来 源 于 用 于 文档 表示 的 “ 词 袋 ”方法 : 给 定 许多 字 构 成 的 字典 D= 
(wh ，*…，zwk}， 这 里 每 一 个 w 是 一 个 字符 串 ， 表 示 一 个 字典 里 的 字 。 给 定 一 个 文档 (pl ，…， 
pzy)， 这 里 每 一 个 pi 表示 文档 里 的 一 个 字 ， 我 们 将 文档 表示 成 一 个 向 量 xE {0，1)*， 这 里 
如 果 对 于 某 些 jE [dj]， w= p BAr 为 1， 其 他 情况 zx; 为 0。 根据 在 很 多 文档 处 理 任 
务 的 经 验 观 察 ， 线 性 预测 器 用 在 这 些 表 示 上 非常 有 效 。 直 观 上 ， 我 们 可 以 想象 每 一 个 字 就 
是 度量 文档 某 一 方面 的 一 个 特征 。 给 定 标签 的 例子 (比如 文档 的 主题 ) ， 一 个 学 习 算 法 搜索 
一 个 线性 预测 器 ， 这 个 线性 预测 器 给 这 些 特 征 赋 予 权 重 使 得 表示 标签 里 出 现 的 每 个 字 都 能 
有 正确 的 连接 。 

当 进 行文 本 处 理 时 ， 词 或 字典 都 有 自然 的 含义 ， 在 一 些 其 他 应 用 中 ， 我 们 就 没有 这 样 
直观 的 实例 表示 。 例 如 ， 计算机 视觉 的 目标 识别 问题 。 这 里 ， 样 本 是 图 像 ， 目 标 是 识别 图 
像 中 出 现 的 物体 。 在 一 个 基于 像素 的 图 像 表 示 上 ， 应 用 一 个 线性 预测 器 就 不 能 取得 一 个 好 
的 分 类 效果 。 那 么 我 们 如 果 找 到 一 个 映射 y 使 得 能 够 使 用 基于 像素 表示 的 图 像 ， 输 出 一 个 
“视觉 词 ” 构 成 的 袋 来 表示 图 像 中 的 内 容 。 例 如 ， 一 个 “视觉 字 “ 可 以 看 成 是 “在 图 像 中 
有 一 只 眼睛 。” 如 果 有 这 样 的 表示 ， 我 们 就 可 以 在 这 个 表示 上 应 用 线性 预测 器 来 训练 一 个 
分 类 器 ， 比 如 人 脸 识别 。 因 此 ,我 们 的 问题 是 如 何 学 习 字 典 里 的 “视觉 词 ”， 使 得 图 像 的 
词 袋 表示 能 够 有 助 于 预测 图 像 里 面 出 现 的 物体 ? 

首先 ， 字 典 学 习 的 一 个 粗略 方法 依赖 于 聚 类 算法 ( 见 第 22 章 )。 假 定 我 们 学 习 到 一 个 
PA c Æl, oe, kh}, KB c(x) 是 关于 x 的 聚 类 。 那 么 ,我 们 可 以 认为 这 些 聚 类 就 是 
“ 词 ”， 实 例 就 是 文档 ， 这 里 文档 x 映射 到 向 量 y(x)E (0, 1}*, Ky (x); 是 1 当 且 仅 当 
x 属于 第 i 个 聚 类 。 现 在 ， 我 们 可 以 明确 地 看 到 在 y(x) 上 应 用 线性 预测 器 等 同 于 对 同一 个 
类 的 样本 赋予 同样 的 目标 值 。 更 进一步 ， 如 果 聚 类 是 基于 类 中 心 距离 ， 那 么 在 g(x) EN 
用 线性 预测 器 将 会 得 到 x 的 分 段 常数 预测 器 。 

均值 和 PCA 方法 都 可 以 认为 是 更 通用 的 字典 学 习 的 特例 ， 这 个 字典 学 习 称 为 自 纺 
码 器 。 在 自 编码 嚣 中， 我 们 学 习 一 对 函数 ， 一 个 编码 函数 YY: RR, WRG R 
9:RR 一 Re。 学 习 过 程 的 目标 就 是 找到 一 对 函数 使 得 构建 误差 DD |x; 一 p(y(x;)) |? 较 小 。 


当然 ， 我们 可 以 尝试 二 d Hy, o 是 同一 个 映射 ， 这 个 映射 使 得 完美 实现 重 构 。 因 此 我 们 
必须 通过 某 种 方式 限制 y 和 gg。 在 PCA 算法 中 ， 我 们 限制 ka 并 约束 yy 和 ow 是 线性 函数 。 
在 均值 算法 中 , & 没 有 限制 小 于 d， 但 是 y 和 og 依赖 于 & DPO., ps s pe 和 y(x) 返 
回 一 个 10，1)* 中 的 指示 向 量 ， 这 个 向 量 表示 最 近 的 中 心 到 x 的 距离 ， 而 o 作为 输入 指示 
回 量 ， 返 回 表示 向 量 的 中 心 。 

k 均值 构建 的 一 个 重要 属性 (允许 & 大 于 a) 就 是 ，y 将 样本 映射 到 一 个 稀 朴 向 量 。 事 
KE, FRE, RA y(x) 的 单个 坐标 不 等 于 0。 上 均值 构建 的 一 个 扩展 方法 就 是 约束 
少 是 一 个 至 多 有 s 个 非 零 元 素 的 向 量 ， 这 里 s 是 一 个 小 的 整数 。 特 别 地 ， 今 y 和 ow 是 关于 
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jw1，…，j4 的 函数 。 函 数 y 把 样本 向 量 x BRAT et POD ER, FP YOO) MBA sb 
非 零 元 素 。 函 数 Yo ELH D) vip;。 和 之 前 表述 的 一 样 ， 我 们 的 目标 就 是 获得 一 个 较 小 


的 重 构 误差 ， 因 此 定义 
g(x) = argmin||x— gv) |? s.t. lo lo <s 
这 里 。 注 意 当 s 二 1， 并 且 | vl; 二 1 时 ， 我 们 得 到 & 均值 编码 图 数 ， 也 就 是 VCxz) 表 示 与 x 
最 接近 的 中 心 的 指示 向 量 。 对 于 s 取 大 值 ， 先 前 定义 关于 o 的 优化 问题 变 得 计算 困难 。 因 
W, MHE, AIRRA ASMA R, EX yy 如下: 
p(x) = argmin[ |x — g) l? +allv h] 

这 里 A>0 是 一 个 正则 参数 。 总 之 ， 字 上 典 学 习 问 题 就 是 找到 癌 量 jw，…，j 使 得 重 构 误 差 
lx,—o(px,)) ||? 尽 可 能 小 。 即 使 y EMG 范 数 来 定义 的 ， 这 仍然 是 计算 困难 问题 (与 


均值 方法 问题 相似 )。 然 而 ， 一 些 启发 式 算法 可 能 给 出 相当 好 的 结果 ， 这 些 算法 超出 了 
本 书 讨论 的 范围。 


25.4 小 结 


很 多 特征 学 习 算法 想当然 地 应 用 样本 的 特征 表示 ， 然 而 特征 表示 的 选择 问题 需要 格外 
小 心 。 我 们 讨论 了 特征 选择 的 方法 ， 介 绍 了 滤波 、 贪 禁 选 择 算 法 以 及 稀 玻 诱导 范 数 。 接 下 
来 ， 我 们 给 出 了 几 种 特征 变换 的 实例 ， 介 绍 了 它们 的 用 途 。 最 后 ， 我 们 讨论 了 特征 学 习 ， 
并 且 特 别 介 绍 了 字典 学 习 。 我 们 说 明了 特征 选择 、 特 征 操 作 和 特征 学 习 都 依赖 于 数据 的 先 
验 知 识 。 


25.5 文献 评注 


2003 年 ，Guyon 和 Elisseeff 综述 了 几 种 特征 选择 的 方法 ， 包 括 很 多 滤波 类 型 的 方法 。 
前 向 贪 禁 选 择 方法 用 于 最 小 化 多 面体 约束 下 的 凸 目标 优化 问题 起 源 于 Frank-Wolfe 算法 
(Frank & Wolfe 1956))。 好 几 位 学 者 研究 了 前 向 贪 禁 选择 方法 与 boosting 方法 的 关系 问 
题 ， 包 括 Warmuth、Liao & Ratsch(2006), Warmuth, Glocer & Vishwanathan( 2008), 
Shalev-Shwartz & Singer(2008)。 正 交 匹 配 追 踪 算 法 已 经 用 于 信和 号 处 理 领域 (Mallat & 
Zhang 1993)。 一 些 文献 分 析 了 各 种 不 同 条 件 下 的 贪 焚 选 择 方法 。 例 如 ，Shalev-Shwartz、 
Zhang 和 Srebro(2010) ， 以 及 这 些 文 章 的 一 些 参考 文献 。 

(EAC, 范 数 来 近似 稀疏 表示 有 很 长 的 历史 (比如 Tibshirani(1996) 以 及 其 中 的 参考 文 
献 )， 很 多 工作 是 在 研究 理解 6 范 数 与 稀 蚊 的 关系 问题 。 这 也 与 压缩 感知 非常 接近 ( 见 第 23 
章 )。 稀 蚊 低 1 范 数 的 能 力 来 源 于 Maurey(Pisier 1980 一 1981)。 在 26. 4 节 ， 我 们 也 可 以 看 
PIKE, 范 数 能 够 用 于 预测 期 的 估计 误差 界 。 

特征 学 习 和 字典 学 习 已 经 被 扩展 应 用 于 深度 神经 网 络 学 习 上 。 比 如 LeCun & Bengio 
(1995), Hinton 等 (2006)，Ranzato 等 (2007)，Collobert & Weston (2008), Lee 等 
(2009), Le 等 (2012) ，Bengio(2009) ， 以 及 其 中 的 参考 文献 。 


25.6 练习 


25.1 证 明 方 程 (25.1) 给 出 的 等 式 。 提 示 : 令 a*，b* 是 最 小 化 左边 式 子 时 的 取 值 。 找 到 
a，b 使 得 右边 的 函数 值 小 于 左边 的 目标 函数 值 ， 找 到 另 一 组 a, b 使 得 左边 的 函数 


25. 2 
25.3 


第 25 章 FFE AHRELR 247 


值 小 于 右边 的 目标 函数 值 。 

证 明 方 程 (25. 7) 是 方程 (25. 6) 的 解 。 

AdaBoost 是 一 种 前 向 贪 楚 选择 算法 : 回想 第 10 章 的 AdaBoost 算法 ， 在 这 一 节 中 

我 们 给 出 了 AdaBoost 的 男 一 种 解析 ， 那 就 是 作为 一 种 前 向 贪 禁 选择 算法 。 

© BE m 个 样本 的 集合 xi1，…，x， 以 及 一 个 VC 维 有 限 的 假设 类 允 ， 证 明 存 在 a 
LIR his S a ha 使 得 对 于 每 一 个 hh EFL, 存在 i1€ ladj， 对 于 每 一 个 j ELmj， h; 
(x) =A) 6 

© 今 R(w) 如 方程 (25. DEN. HEH w, EM fe 函数 如 下 : 


d 
fale) = Dd wht =) 
i=] 
qpe exp(— ViF w (%)) 
D & 
这 里 Z 是 归 一 化 因子 ,使 得 D ERRE, WEH: 
SR ww 二 一 > Diyih; (x;) 
i=] 


wi; 


更 进一步 ， 表示 后 一 >D; Den apts] ? 证 明 
i=] 
-i 59 


ow 一 1 


wi 
得 出 绪论 ， 如 果 e 硅 1/2 一 y， 那 么 


o 试 说 明 由 AdaBoost 算法 迭代 可 以 得 到 RCw t?) —RCw® ) 过 log( V1 一 4 )。 提 
示 : 利用 定理 10. 2 的 证 明 。 





OR(w) 
es >y/2. 
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拉 德 马赫 复杂 上 度 





在 第 4 章 中 ,我们 已 经 证 明了 一 致 收敛 性 是 可 学 习 的 充分 条 件 。 那 么 在 本 章 我 们 介绍 
用 来 测量 一 致 收敛 的 速率 的 拉 德 马赫 复杂 度 的 相关 知识 。 最 后 给 出 基于 这 种 测量 方法 的 一 
些 泛 化 误差 。 
26.1 拉 德 马赫 复杂 度 概述 
回忆 第 4 章 关 于 -代表 性 样本 的 定义 ， 我 们 在 这 里 为 了 方便 ， 重复 列 于 下 方 。 
定义 26. 1(e -代表 性 样本 ) 一 个 训练 集 被 称 作 s -代表 性 样本 (定义 在 域 Z， 假 设 类 戏 ， 
损失 函数 2 和 分 布 P) ， 如 果 满 足 
sup | Lp (h) —Lsth)|<e 
我 们 已 经 证 明了 如 果 S 是 s/2 -代表 性 样本 ， 那 么 在 ERM 准则 下 它 是 一 一 致 的， 即 : 
Lp CERMy (S))<min,cx Lp (hites 
为 了 简化 记号 ， 让 我 们 表示 如 下 : 
F “y oH 2 {zHbllh,z):h E H} 
HABE SJEF, RIMEN 
Lp(f) = Elf], Ls(f) = LY fæ) 
我 们 定义 集合 S 在 大 上 的 代表 性 为 一 个 因数 f 的 真实 误差 和 它 的 经 验 误 差 的 上 确 
界 ， 即 
Rep, 1.53 = = sup(Lp(f) —Ls(f)) (26. 1) 
现在 ， 假 设 我 们 想 要 仅 依 靠 样 本 集 S 本 身 来 估计 它 的 代表 性 。 一 个 简单 的 想法 就 是 将 
S 分 为 两 个 不 相交 的 子 集 ，S=S US:; 将 Si 作为 验证 集 ，S; 作为 训练 集 。 我 们 就 可 以 测 
得 S 的 样本 集 代表 性 : 
sup(Ls, Ji — Ls UH (26. 2) 
WRR o= (ors s on) E 4 (Hip ' 为 一 个 向 量 ， 并 上 且 使 得 Si = zol), S= lz o= 
一 1} ， 那 么 等 式 (26. 2) 就 可 以 被 更 简洁 地 表示 为 
2 sup), oif (zi) (26. 3) 


拉 德 马赫 复杂 度 采用 了 这 个 思想 ， 它 考虑 在 随机 选择 o 的 情况 下 等 式 (26. 3) 的 期 望 。 
ÉRE, SF oS 是 一 个 函数 AGE 二 在 样本 集 S 上 所 取得 的 函数 值 的 全 体 。 即 
F o S = (fz) fend): f E F} 


依据 PLo; 二 1j] 二 PLo;= -1]=3 ， 设 5 中 的 变量 是 独立 同 分 布 的。 那么 定义 在 样本 集 S 上 
pm ey 
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def ud 
RF-S=+ e [sup aft) (26. 4) 
o~{t1})" JEF i=l 
更 具 一 般 性 ， 给 定 一 个 向 量 集合 ACR’, Rie 
def nis 
R(A) = + vm BL sup 20: | (26. 5) 


接 下 来 的 引 理 表明 集合 S 的 代表 性 的 期 望 不 大 于 2 倍 的 拉 德 马赫 复杂 度 的 期 望 。 


引 理 26. 2 
E [Repp(F,S)]<2 ERCE S) 


s~D” S~D” 


证 明 设 S 王 (zi1，…，zw)} 是 另外 一 个 独立 同 分 布 样本 。 显 然 ， 对 于 所 有 的 FEF, 
Lp(f)—Ls(f) = ELLs (A) | — Lt Pp = ELLs Cfi—ieG | 
在 等 式 两 边 对 fE 取 上 确 界 ， 并 且 依 据 期 望 的 上 确 界 小 于 上 确 界 的 期 望 这 一 事实 ， 
我 们 可 以 得 到 
sup(Lo(f) —Ls(f))= sup ELLs (P) —Ls(f)] 
JEF FS 
< EBL sup(Ls ee Ls(f)) | 
S EF 

在 等 式 两 边 同时 对 S 取 期 望 ， 我们 有 


B| supo (P) -Ls (P) |< B| sup(Ls A= Ls) | 
(26. 6) 
=A Bld ge J — fled) | 


接 下 来 ， 我 们 注意 到 j. z, Mz 都 是 独立 同 分 布 变量 ， 因此 ， 可 以 互 换 它们 且 并 不 
影响 期 望 : 


E| sup( fz) — f(z) + We'd) = f(z) | 
eer z (26. 7) 
=B [sup( (fe) = f > ey —f(w)) | 

So 是 一 个 随机 变量 ， 且 满足 P[o 一 1] 一 Pg; = 一 1] 二 汪 ， 从 等 式 (26.7) 我 们 可 以 
得 到 
E [supa FD — sa + De’) — Fe?) | 


S.S sa; 
=F 方程 (26.7) 左边 ) +L FH (26.7) 右边 ) (26. 8) 
= B| sup( fC") = PID 3 eD — f) | 
对 于 所 有 j 重复 上 述 步 又， 我 们 有 
E| sup>) Fee") — fz)) | = B | sup ase )—f(z))| (26.9) 
最 终 
sup oo (f(2') — f(z;)) < sup Djaif (2' ) + sup), — a:f (a) 
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并 且 由 于 o 的 概率 等 于 一 6 的 概率 ， 等 式 (26. 9) 的 右边 可 以 重 与 为 
E | sup aif i) + sup Joif (=) | 
S,S ol /EF | JEF 
=m ELR(F 。S ) ] +m ELR(F o S) | = 2m ELR(F 。S) | m 
”这 个 引 理 直接 告诉 我 们 ， 在 期 望 意义 上 下， 依据 ERM 准则 找到 的 假设 类 非常 接近 好 中 
的 最 优 假设 类 。 
定理 26.3 我 们 有 
E [Lp CERMy(S)) —LsCERMy(S))|<2 E R@.-He S) 


S~D" Ep" 
而 对 于 所 有 的 h* CH, A 
E [Lp(ERM(S))—Lp(h*)| 过 2 E R@-.He S) 


Sap” SD" 
更 进一步 ， 如 果 h* 二 argminsLp (h)， 那 么 对 于 任意 的 6E (0，1)， 我 们 至 少 以 1 一 6 的 概 
率 在 样本 集 S 上 有 
Lp (ERMy(S)) —Lp(h") oy Be phe? 
证 明 第 一 个 不 等 式 可 以 直接 由 引 理 26. 2 获得。 第 二 个 不 等 式 则 根据 对 于 任意 固定 
Wh’, A 
Lp(h*) = ELLs Ch” j |z ELLs (ERMy(S)) ] 
第 三 个 不 等 式 可 以 由 之 前 的 不 等 式 以 及 马尔 可 夫 不 等 式 (注意 随机 变量 Lp CERMy, (S)) — 
Lp (h* ) 是 非 负 的 ) 获 得 。 m 
接 下 来 ， 我 们 可 以 从 定理 26. 3 得 到 一 个 更 独立 依赖 置信 参数 6 的 界 。 为 了 得 到 这 个 
界 ， 我 们 首先 介绍 下 面 的 有 界 偏差 集中 不 等 式 。 
引 理 26. 4( 麦 克 迪 尔 米 德 不 等 式 ) 设 V 是 某 一 集合 ， 且 设 f:V" 一 民 是 一 个 m 个 自 变 
量 的 hy BK 对 于 某 个 EU 对 于 所 有 的 iEM 且 对 于 所 有 的 Tis "°y Tm» x; EV, 我 们 有 
| Fay stt End = PRL yg Es mR) | Xe 


BX, ot, Xn ARA V 中 的 m 个 独立 随机 变量 。 那 么 ,我 们 至 少 以 1 一 6 的 概率 有 


a Se, [n= Ym/2 


在 麦克 迪 尔 米 德 不 等 式 的 基础 上 我 们 可 以 得 到 一 个 更 独立 于 置信 参数 6 的 泛 化 误 
差 界 。 

定理 26.5 假设 对 于 所 有 的 x FhEH, MINA LA, Dc, M4 

lL 至 少 以 1 一 6 的 概率 ， 对 于 所 有 的 ACHA 


Lp(h) —Ls(h) <2 H RU He S') +c, AP 
S~D” m 


特别 地 ， 不 等 式 对 于 有 一 ERM (S) 也 成 立 。 
2. 至 少 以 1 一 6 的 概率 ， 对 于 所 有 的 hEKXNK 有 


Lp(h) — Ls(h) <2R sH» S) de, 2RD 
m 


ae, RAAF hSERM,: (SOLAZ, 
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3. 对 于 任意 的 h"， 至 少 以 1 一 6 的 概率 有 
Lp (ERMy(S)) — Lp (h* ) < 2R oH. S) +5c fein Bio? 


证 明 首先 注意 到 随机 变量 Repn (F, S)=supren (Lp (h) — Ls (h)) i 25 | HE 26. 4 在 
常数 2c/m 下 的 有 界 偏差 条 件 。 结 合 引 理 26. 4 和 引 理 26.2 的 结论 ， 我 们 可 以 以 至 少 以 1 一 
6 的 概率 有 


Repp (F,S) < E Repp (FS) 十 cA/ PCD <2 ERE- H e S +c, [RCD 


第 一 个 不 等 式 可 以 直接 从 Repp (大 ，S) 的 定义 中 得 到 。 而 对 于 第 二 个 不 等 式 ， 我 们 注 
意 到 随机 变量 RL。KH。S) 同 样 满足 在 常数 2c/m 下 的 有 界 偏差 条 件 。 所 以 第 二 个 不 等 式 
就 可 以 直接 由 引 理 26.4， 第 一 个 不 等 式 以 及 联合 边界 得 到 。 最 后 ， 对 于 第 三 个 不 等 式 ， 记 
h, 二 ERMn(S)， 并 且 注 意 到 

Lp (hs) — Lp(h* )= Lp(hs) — Ls(hs) + Ls(hs) — Ls(h* ) +L s(h* )—Lp(h" ) 

< (Lp (hs) — Ls(hs)) + (Ls(h* ) — Lp bh" )) (26. 10) 

等 式 右 边 的 第 一 个 加 项 的 上 界 由 第 二 个 不 等 式 就 可 以 得 到 ， 第 二 个 加 项 需 注意 到 h* 

是 不 依赖 于 样本 集 S 的 ， 运 用 霍 夫 丁 不 等 式 ， 我 们 至 少 以 1 一 6/2 的 概率 有 


Ls(h*) —Lpth*) < c, | PH (26. 11) 


结合 联合 边界 我 们 证 明了 结论 。 a 

之 前 的 定理 告诉 我 们 ， 如 果 尺 (CE。 戏 。S) 很 小 ,那么 很 有 可 能 利用 ERM 准则 可 以 学 
习 到 假设 类 XK。 值得 强调 的 是 上 述 定 理 给 出 的 最 后 两 个 界 是 依赖 于 特定 的 训练 集 S 的 ， 这 
意味 着 ， 我 们 利用 训练 集 S 去 学 习 假 设 类 并 且 用 它 去 衡量 这 个 假设 类 的 好 坏 。 这 种 类 型 的 
界 我 们 称 之 为 数据 相关 界 。 


拉 德 马赫 积分 


现在 ， 让 我 们 讨论 拉 德 马赫 复杂 度 的 一 些 性 质 。 这 些 性 质 便于 我 们 获得 针对 某 些 特殊 
情况 下 的 RC。XK。S) 的 简单 的 界 ， 
下 面 的 引 理 可 以 直接 由 定义 获得 。 


引 理 26.6 对 于 任意 的 AER"， 标 量 cE 腿 和 向 量 aoER"*， 我 们 有 
R( {a +ao:a E€ A}) < |c|R(A) 


下 面 的 引 理 告 诉 我 们 A 的 凸 包 与 A 有 一 样 的 复杂 度 。 


引 理 26.7 设 A 是 朴 " 的 一 个 子 集 ， 且 A' 一 / aa” :NEN, Vj, a7 CA, a0, 
lal,=1}, #2 R(A')=R). 
证 明 对 于 任意 向 量 我 们 有 


sup 要 a SRAD 
a>0: || all ,=1j=1 


因此 


N 
mR(A')=E sup sup 、 De daa? 


5 a>: ee o ane j=l 
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N m 
(j) 
= KK sup Sa; sup > oia! 
o a>0: llall 1 一 ] j=1 a i=] 
m 


=e 
= mR (A) 
我 们 证 明了 该 结论 。 a 
下 面 的 引 理 ( 来 自 于 马 萨 特 ) 说 明了 一 个 有 限 集合 的 拉 德 马赫 复杂 度 随 集合 的 大 小 而 对 


数 增长 。 
引 理 26. 8( 蕊 萨 特 引 理 ) 令 A={d，…，aN)} 是 RE 中 的 一 个 有 限 集合 。 定 义 4 二 


] N 
ee py 
N 2, a;, ARZ 


R(A) < max||a—al og) 


证 明 在 引 理 26.6 的 基础 上 ， 我 们 可 以 不 失 一 般 性 地 假设 a=0, 4~>0 HA = 
{Adi > iat Aan} 我 们 得 到 它 的 拉 德 马赫 上 界 : 


mR (A') = E| max(e,a) | - E| log( maxe'* ) | 
< Bf ioe( Zee”) | 
过 log(B| Ste ]) /往生 不 等 式 


= log( >I Ble“? ]]) 
最 后 一 个 等 式 成 立 是 由 于 拉 德 马赫 变量 之 间 是 相互 独立 的 。 
接 下 来 ， 利 用 引 理 A. 6， 对 于 所 有 的 a; ER", RITA 


= Be" _ exp(a;) “ee a; ) EEEE T y 


因此 
mR (A')< log( >» [Lexe($) ) a log( D7 exp( lal272) ) 


ac A’ 
< log( | A’ | max exp( lal?/2)) = log(|A’|) + max( |all?/2) 
acA acA 


由 于 RCA)=—R(A’), 我 们 得 到 等 式 


RA) = log(|A|) tA marea Cal /2) 
A = /2log(|A])/maxealal?, BRHEVISK FT. 我 们 就 得 到 了 结论 。 
下 面 的 引 理 告诉 我 们 如 果 给 集合 A 作用 一 个 利 普 希 世 函数 ， 并 不 会 增 大 它 的 拉 德 马赫 
复杂 度 。 这 个 证 明 主 要 是 来 自 Kakada 和 Tewari. 


引 理 26. 9( 压 缩 引 理 ) ”对 每 一 个 i ELmj], A pi: 民 > 民 是 一 个 po- 利 普 希 英 函数 ; 即 ， 
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对 于 所 有 的 a, BER, RNA |G (a)—¢(—)|<ela—pl. HFACR", 令 p(a) 表 示 向 量 
Cpi lar), ts Gn(am))<pla—Bl. A p° A={pla):a€A}, AA 
R(g ° A) < p(A) 


证 明 为 了 简单 起 见 ， 我们 只 证 明 p=1 的 情形 。 而 当 p 关 1 时 ， 我 们 可 以 定义 = 
wg， 并 利用 引 理 26.6 即 可 。 PA; = (Cay, st, aiis i(4i)， aitis "ty AQm):@E A}, XE 
够 证 明 对 于 任意 集合 A 和 所 有 的 i， 我们 有 ROAD<ROA). 不 失 一 般 性 ， 我 们 将 在 下 面 的 
证 明 中 只 证 明 i=1 的 情形 ， 并 且 为 了 简单 起 见 ， 省 略 了 wm 的 下 标 。 我 们 有 

mR (A,)= E B| sup Daa | 


1 i=] 


= E| supa: g(a.) ia dora: | 


- +E = B | sup(¢(a:) + ou, ) + sup(— olai) + Sos) | 
= Ta E Fi sup (g(a) — ọla: ‘y+ You, ar dona, ) | 
rE 人 ont 


其 中 ， 在 最 后 的 一 个 不 等 等 式 中 我 们 利用 了 假设 ， 即 是 利 普 硕 奖 函 数 。 我 们 注意 到 最 后 的 
表达 式 的 前 半 部 分 ， 绝 对 值 |a 一 a | 是 可 以 省 略 的 ， 这 是 因为 a，a 都 是 来 自 于 同一 个 集合 
A， 并 且 ， 表 达 式 的 后 半 部 分 的 上 确 界 并 不 受 a，a 的 替换 的 影响 ， 因 此 


mR(A,) < > >, E | sup (a —g = ou, =f do) | (26. 13) 
但 是 ， 用 不 等 式 (26. 12) 中 的 不 等 关系 ， 不 难 发 现 不 等 式 (26. 13) 的 右边 等 于 mR(A)， 这 
就 证 明了 我 们 的 结论 。 a 


26.2 ”线性 类 的 拉 德 马赫 复杂 度 


本 市 我 们 分 析 线 性 类 的 拉 德 马赫 复杂 度 。 为 了 简化 推 性 ， 首 先 定义 以 下 两 类 : 

H, = {xwWw,x):|wl,< 1}, H; = {rw | wll,< 1} (26. 14) 

下 面 的 引 理 给 出 了 假设 类 jl 的 拉 德 马赫 复杂 度 的 界 。 我 们 允许 x; 可 以 是 任意 希 尔 伯 
特 空间 的 癌 量 ( 其 至 是 无 穷 维 空间 )。 这 个 性 质 当 我 们 分 析 核 方法 时 是 非常 有 用 的 。 


引 理 26. 10 4 S$ 一 (xl1， Ty xn) 是 布尔 伯 特 空间 的 一 个 向 量 。 定义 XW， o S={((w; 
Lily wy CW, Xm)): l wl<1}, 那么 
Re » S) < EE la 
< T = 
证 明 ”利用 柯 西 - 施 瓦 茨 不 等 式 ， 我 们 知道 对 于 任意 两 个 向 量 ww，z， 我 们 有 (z，z) 云 
lwl lol, Ee 


mR (H, » S)= e| sup ,> oa: | 


acH, 
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一 加 [ sup Talni J 


w: || w || <1 i=1 


=B| ML Dyos; J 


Yow. (26. 15) 
利用 往生 不 等 式 ， 我 们 有 | 


el | Yow], = el (| Hox.) ]<(a[]> 


8, este ssa, Mine, 所 以 
e| | > or | | = E| 210; (Xi, X; J 


= $to Eloo; ] + > (Xj 9X) Elo; j 


iF) 














x; Di (26. 16) 




















= =» |x: |? < m maxllx: ls 


结合 等 式 (26. 15) 和 等 式 (26. 16), 我 们 证 明了 结论 a 
fe F HFK TTUEHAH, ° S 的 拉 德 马赫 复杂 度 。 


引 理 26. 11 A~ S= (x), vee, Xn) ze. R 空间 中 的 的 一 个 向 量 ， 那么 
RO, © S) < max| x; |o q / 722” 


证 明 利用 Holder 不 等 式 ， 我 们 知道 对 于 任意 两 个 向 量 w, v, 我 们 有 (w，wv) 过 
lwl lol. Ke 


= El sup Yow sx;) | 


w: || wll <1 i=1 


E ( 9 7 
B| lal a = Xox: | 

< 下 | Dex) | (26. 17) 
g i=1 oo 





IF B—TIEN, $ 本 一 (Jj ts tj) ER", HERE 0; | ></mmax, læs + 
V=(v), ee Bas Ura y = a 不 等 式 (26. 17) 的 右边 是 mR(V), 使 用 马 萨 特 引 理 
( 引 理 26. 8) ， 我 们 有 


RV) < < maxļ|x, lo /2log(2n)/m 
这 就 证 明了 我 们 的 结论 。 is 
26.3 SVM 的 泛 化 误差 界 
本 广 我 们 利用 拉 德 马赫 复杂 度 得 到 在 欧 几 里 得 范 数 限制 下 的 广义 线性 预测 器 的 泛 化 误 
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差 界 。 我 们 将 展示 如 何 推导 出 硬 -SVM 和 软 -SVM 的 泛 化 误差 界 。 

我 们 将 考虑 基于 以 下 约束 的 一 般 形式 ， 令 网 二 {w: 上 wl, 志 B} 作 为 我 们 的 假设 类 ， 令 
Z 二 Xy 作 为 样本 空间 ， 假 设 损失 函数 b:XXZ 一 民 具 有 如 下 形式 

Cw,(x,y)) = p(w, xX),y) (26. 18) 

这 里 的 g:RX》>RR 是 指 对 于 所 有 的 YE， 标量 函数 a Pp (a，y) 是 p- 利 普 希 次 肾 数 。 例 
ui, Btt A hinge-loss 函数 LC(w，(x，y)) 二 max{0，1 一 y《w，x)) 可 以 写作 等 式 
(26. 18) 的 形式 ， 只 需 使 pla, y)=max{0, 1 一 ya}， 并 且 应 注意 到 wp 对 于 所 有 的 
y€{ 土 1} 都 满足 1 - 利 普 希 茨 条件。 另 一 个 例子 是 绝对 损失 图 数 ，&(zw，(x，y)) 王 
| (za，x) 一 y| ， 它 也 可 以 写作 等 式 (26. 18) 的 形式 ， 只 需 使 pg(a，y) 二 1a 一 y| ， 它 也 是 对 
于 所 有 的 yEG 了 下 满足 1- 利 普 而 次 条 件 。 

下 面 的 定理 给 出 了 中 所 有 预测 的 泛 化 误差 界 ， 这 个 界 是 利用 经 验 误差 给 出 的 。 

引 理 26. 12 假设 D 是 在 X》 上 的 一 个 概率 分 布 ， 我们 以 概率 1 有 | xl, 三 R。 令 HN 二 
{w:||wl,><B}, 2:HXZ-R £4 FX (26.18) Fh- BK, As, trey 
yEY, amgla, Y-A 0-4) $A K HH Hmaxermer mr | gla, y)|<c, MA, Fe 
意 的 6E(0，1)， 至 少 以 1 一 6 的 概率 选择 一 个 大 小 为 m 的 独立 同 分 布 样本 

Ww p E e (ae 
Vm m 

证 明 4 F={(x, ymo lw, x), y): wEH}), RTK HALER 1 ARE -S 

oBR/Vm。 然 后 ， 该 引 理 可 由 引 理 (26. 5) 得 出 。 实 际 上 ， 集 合 正 。S 可 以 被 写 为 
F o S = { (ow, xi) sy) tes pW Xm? s Vm): w E H} 

RC(F。S) 的 界 可 以 直接 由 引 理 26.9、 引 理 26. 10 和 假设 (以 概率 1 有 | xl 和 R) 得 出 。 a 

接 下 来 我 们 引出 一 个 基于 先 验 理论 的 硬 SVM 的 泛 化 界 。 简 单 来 说 ， 我 们 不 容许 有 偏 
差 项 ， 考 虑 硬 SVM 问题 : 

argmin|z ||? St Viimasel 

引 理 26. 13 ZRE-PALX(L1 PHD, FE-HAE w 满足 Pey-plylw*, x> 
1 二 1， 并 且 以 概率 1 有 | 上 |x|: 二 R。 令 ws 是 等 式 (26.19) 的 输出 。 那 么 我 们 至 少 以 1 一 6 的 概 
率 ， 在 样本 S~D” 的 情况 下 ， 有 


P Cy sient wa de ee ge pi 1) /2In(2/68) 
(x,y)~D r= a 


证 明 在 证 明 的 全 部 过 程 中 ， 假 设 损失 函数 是 斜坡 损失 ( 见 15.2.3 7). ERA, A 
坡 损失 的 范围 是 L0，1]j， 是 一 个 1 - 利 普 希 茨 函数 。 由 于 斜坡 损失 由 0 一 1 损失 界定 ， 我 
们 有 
天 sign((ws,x)) |< Lp(ws) 
令 B=|w* l2, #ERAH={w:||wl:<B}. HÆ SVM 的 定义 和 关于 分 布 的 假设 ， 
我 们 以 概率 1 有 wEH, IFA Ls(ws)=0. Kik, 根据 引 理 26.12 我 们 有 


Lplws) <Ls(ws) + 2BR p /2in(2/o) . 
= m 


评注 这 个 引 理 意味 着 硬 SVM 问题 的 样本 复杂 度 以 及 史上 增长。 用 一 个 更 加 精 
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配 的 分 析 和 可 分 离 性 假设 ， 样 本 复杂 度 可 能 以 及 党 增长。 

在 前 面 的 定理 中 ,误差 界 依赖 于 | w' ‖， 但 它 并 不 可 知 。 接 下 来 我 们 引出 一 个 界 ， 它 
依赖 于 SVM 的 输出 的 范 数 ， 因 此 可 以 被 训练 集 计算 出 来 。 该 证 明 与 结构 风险 最 小 化 中 的 
界 的 证 明 类 似 。 

定理 26. 14 假设 定理 26. 13 的 条 件 存 在 ， 那 么 ， 我 们 至 少 以 1 一 8 的 概率 ， 在 样本 
S 一 D" 的 情况 下 ， 有 

Alog( Ws ) 
人 
a ph Æ sign((ws,x)) ]< 79 一 一 一 一 一 


证 明 ”对 于 任意 整数 i, 今 B=2, H,={w:| w|<B;}. HA 3=f. 固定 i EH 
定理 26. 12， 我 们 至 少 以 1 一 6 的 概率 有 


Vue Nt Letwy ra 4 37 


利用 联合 界 以 及 X) 8 <8， 我 们 至 少 以 1 一 8 的 概率 对 于 所 有 i 有 上 式 成 立 。 因 此 ， 


2_ Qi) 


对 于 所 有 的 w， 如 果 我 们 令 i=! log (lw), BAweEH, B<2|wl, HS 5 


(4log: (|| wll)? 
ô o 


< 


因此 


2B.,R 21n(2/6;) 
Lp(w) Ls(w) a Ta — oo 


Z Letaj dw + 4(In(4logs (| wl )) +1n(1/8)) 
Vm 772 
特别 地 ， 它 对 于 ws 成立 ， 这 就 证 明了 我 们 的 结论 。 eI 
标注 26.2 ”注意 到 我 们 已 经 证 明 的 所 有 的 误差 界 都 不 依赖 z 的 维 数 。 这 个 性 质 使 得 
我 们 学 习 SVM WR PRAT, w 的 维 数 可 以 很 大 。 


26.4 低 4 范 数 预测 器 的 泛 化 误差 界 

在 之 前 的 章节 中 ， 我 们 导出 了 4 范 数 约束 的 线性 预测 器 的 泛 化 上 界 。 本 节 中 ， 我 们 考 
虑 如 下 在 4 范 数 约束 下 的 一 般 形式 。 令 拓 ={w: |wh <B) HERRAS, H Z=xXXKIVH 
样本 空间 。 假 设 损失 函数 ，&: 戏 X 2 了 与 等 式 (26. 18) 具 有 相同 形式 ， 即 o:RXY>R EE 
义 在 第 一 个 变量 上 的 p - 利 普 硕 次 图 数 。 下 面 的 定理 根据 姑 中 所 有 预测 器 的 经 验 损 失 定 义 了 
它们 的 泛 化 误差 界 。 

定理 26. 15 假设 D 是 定义 在 和 XY》 上 的 一 个 分 布 ， 使 得 我 们 以 概率 1 Alw|.<R, + 
H={wER’: | wl:<B} Bl:HXZ-R ASH FX(26. 18) EAHA k BH, BAH 
所 有 yEY, ampla, y)#—4 0-4) ÉA KR HK AK max,c,— mm | ela, y)|<c. Ap 
么 ， 对 任意 6E(0，1)， 在 mx 个 独立 同 分 布 的 样本 上 ， 我 们 以 至 少 1 一 6 的 概率 有 


Vw € H,Lplw) <Ls(w) + 20BR ED a, (eiaa 
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证 明 证 明 过 程 与 定理 26. 12 的 过 程 完 全 相同 ， 除 了 根据 引 理 26. 11 引出 而 不 是 引 理 
26. 10。 z 

通过 比较 定理 26. 12 和 定理 26. 15 的 两 个 界 ， 可 以 发 现 一 些 有 意思 的 事情 。 抛 开 定 理 
26.15 额外 的 log(d) 因 子 ， 两 种 界 看 起 来 十 分 相似 。 然 而 ， 参 数 B 和 R 在 两 个 界 中 有 不 同 
的 含义 。 在 定理 26. 12 中 ， 参 数 BM w 施加 了 4 范 数 约束 ， 而 参数 R 给 定 了 样本 上 一 种 
较 弱 的 4; 范 数 假设 。 相 反 ， 定 理 26. 15 中 ， 参 数 B w 施加 4 WMA RE, 限制 更 强 )， 
而 参数 R 给 定 了 样本 上 的 4, 范 数 假设 ( 比 b; 范 数 假设 更 弱 )。 因 此 ， 对 约束 的 选择 应 该 根据 
样本 集 分 布 的 先 验 以 及 合适 的 预测 器 的 假设 先 验 而 定 。 


26.5 文献 评注 


使 用 拉 德 马赫 理论 来 界定 一 致 收敛 来 自 于 Koltchinskii & Panchenko(2000), Bartlett 
& Mendelson (2001), Bartlett & Mendelson (2002)。 另 外 ， 例 如 Bousquet ( 2002), 
Boucheron, Bousquet & Lugosi(2005), Bartlett, Bousquet & Mendelson(2005) 中 也 有 前 
述 。 我 们 关于 压缩 引 理 的 证 明 来 自 Kakade 和 Tewari 的 课程 笔记 。Kakade、Sridharan 和 
Tewari(2008) 为 不 同 的 范 数 假设 下 的 线性 假设 类 的 拉 德 马赫 复杂 度 的 界 的 推导 定义 了 一 个 
统一 框架 。 
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在 这 一 章 ， 我 们 用 另 一 种 方式 来 度量 集合 的 复杂 度 ， 这 种 方式 叫做 履 兰 数 。 


27.1 Bes 
定义 27. 1( 覆 盖 ) 假设 ACR”" 是 维度 为 m 的 向 量 集 ， 如 果 对 于 所 有 的 aEA, 在 A 
中 均 存 在 @w' 满 足 ‖a 一 巡 和 ->， 我 们 就 说 在 欧 几 里 得 度量 空间 中 ， 集 合 A 覆盖 集合 A。 我 们 
将 能 够 7 履 盖 集合 A 的 最 小 集合 A 定义 为 集 的 势 ， 并 用 NGCr，A) 表 示 。 
( 子 空 间 ) {REE ACR”, 4 c=maxea lal, 假设 A 可 以 映射 到 R 的 a 维 
子 空间 中 ， 那么 NET AWS edal e 要 证 明 等 式 成 立 ， 假设 Vis "a Va 是 子 空间 的 
d 
正 交 向 量 基 。 那 么 ， 对 于 任意 的 a€ A， 均 能 表示 成 a 二 Dd) aw: HP lall.<lleal.=|lal.< 
j=] 
Co Z>cER;, 考虑 集合 


d 
A’ — | Ja’ wi: Visa; € 《一 一 让 下 一 < 十 2e，…c)| 
i=l 


d 
给 定 aCA, 其 中 a 满足 约束 条 件 : a— > QiUi s lall..<<c, 那么 存在 a'EA', 使 得 
| 
村 
4 e=r/J/d, Whla—a'|<r, AKA 是 A 的 > 覆盖 ， 进 而 可 以 推导 出 : 
d 
NGr,A) <|A'|= (2Y = (28) 4 
E a 
性 质 
从 定义 中 很 容易 得 出 以 下 引 理 。 
引 理 27.2 对 于 任意 的 AC 了 R"， 标 量 c 盖 0， 向 量 aoE 了 R"， 我 们 可 以 得 出 
Yr> 0,N(r, {œa 十 ao:Q E- Ay) =. Nr ,A) 
下 面 ， 我 们 将 推导 一 个 收敛 准则 。 
引 理 27.3 对 于 每 个 i€E[mj], 令 gp;: 民 > 民 是 一 个 p- 利 普 希 英 函 数 ， 也 就 是 对 于 所 有 
a, BER, HX! 9;(a)—¢gi(P)|<pla—f|. HTaCR", 邻 (a) 表示 向 量 (gi (al ) ，…， 
Qn (Am). A p ° A 二 {g(a):aEA}， 那 么 
N(pr,p° A) < N(r,A) 
WE RH 定义 B= a A, 令 A' 是 A 的 > 覆盖 ， 定义 B 一 g A’, 那么 ， 对 于 所 有 的 
aCA, 存在 a EA', 使 得 la 一 a'| 二 +x， 因此 ， 
ll pCa) — g(a’) ||? = 2 (gila:) —9;(a';))” LE Ya —a'iiy < (pr)’ 
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因此 , B's: BA or 覆盖 。 = 


27.2 ”通过 链 式 反应 从 覆盖 到 拉 德 马赫 复杂 度 
下 面 的 引 理 基于 覆盖 数 N(x，A) 给 出 了 集合 A 拉 德 马赫 复杂 度 的 边界 ， 这 种 由 Dud- 
ley 最 早 提出 的 技巧 称 为 链 式 反应 。 


引 理 27. 4 令 < 一 minmax|la 一 a| ， 那么 ， 对 于 任意 整数 M>0， 
ez” 6c : —k =k 
R(A) < += >) 2% JSlog(N(c2*,A)) 
Vm 


证 明 令 a 是 给 定 的 目标 函数 c 的 最 小 值 ， 基 于 引 理 26. 6， 假 设 a 二 0， 我 们 能 够 分 析 
拉 德 马赫 复杂 度 。 

考虑 集合 Bo 二 10}， 并 且 注 意 它 是 集合 A 的 c 覆盖 。 令 集合 Bi s Bu 分 别 是 集合 
A 的 最 小 c2 一 覆盖 。 re 二 argmaxaeA《G，Qa)( 如 果 存 在 多 个 最 大 值 ， 那 么 任意 选择 一 个 ， 
如 果 不 存在 最 大 值 ， 那 么 我 们 选择 使 (a， a" ) 接 近 于 最 大 值 的 a* )。 注 意 a* 是 6 的 一 个 函 
数 。 对 于 每 一 个 &， 令 b” E B 中 a* 的 最 近邻 (因此 bY theo 的 一 个 函数 ) 。 使 用 三 角 不 
“Ext: 

lb —b*» |< | b® —a* |+ la* — b |< c(2*+2-) = 3c2+ 
对 于 每 一 个 定义 集合 
Ê, = {(a—a'):a € Ba € Bea, la —a' l< 3c2*)} 


R(A)= — Blød”) 


m 
l M 
= 1 g| (oa =b) + $) (o,b” —B*) | 


M 
= 1 E| loll la* —b™ | 十 2, 一 B supa) | 
HF lel=/m, lla*—b™ ||<c2™, 因此 第 一 项 最 大 值 是 -二 2 “， 另外 ， 通 过 马 萨 特 引 
m 


理 我 们 有 
1, apen Sack Blot N ic Ay) gpi leg Ces" ,A 


a€ ĝ; 


因此 ， 





c2™ 1 be — 
RA) <a tu? /log(N(c2* ,A)) č 
m k=1 
我 们 可 以 得 到 以 下 推论 : 


引 理 27.5 假设 存在 w，p>>0， 对 于 任意 的 & 之 1， 我 们 有 


vV log(N(c2™ ,A)) <a+tpBk 
那么 
RCA) < F(a + 28) 
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证 明 当 Mo 时， 边界 满足 引 理 27.4， 注 意 》) 2 一 1，> 12 一 2。 


k=] 
集合 A 存在 于 R Wd 维 子 空间 ， 且 有 c= 二 maxsea lal, 我们 已 经 证 明 
d 
Nor, A<(2%4), 所以， 对 于 任意 %， 


a 
V log(N(c2*,A))< vV dlog(2*" Vd) 
< /dlog(2/d) + /kd 
< Vdlog(2/d) +Jdk 
因此 ， 引 理 27.5 得 出 


6 JdlogD 
ROA) < (Vdlog(2 Vd) +2 Jd) = O( H8 ) < 


27.3 文献 评注 
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链 式 反应 技术 由 Dudley(1987) 最 早 提 出 。 如 果 想 要 进一步 学 习 覆 盖 数 以 及 其 他 用 来 界 
340) ” 定 一 致 收敛 速率 的 复杂 度 测量 方法 ， 可 以 参考 阅读 Anthony & Bartlet(1999) ， 


| $ 28 Fe 


Understanding Machine Learning; From Theory to Algorithms 


学 习 理 论 基 本 定理 的 证 明 





本 章 我 们 证 明 第 6 章 的 定理 6.8。 该 定理 的 条 件 是 : 对 是 由 从 定义 域 二 映射 到 值 域 {0，1) 
的 函数 组 成 的 假设 类 ， 损 失 函 数 是 0 一 1 损失 , 并且 VCdim(H) =d<co, 

我 们 会 证 明 可 实现 和 不 可 知 两 种 情况 下 的 上 界 ， 以 及 不 可 知情 况 的 下 界 。 可 实现 情况 
下 界 的 证 明 则 留 作 练习 。 
28.1 不 可 知情 况 的 上 界 

关于 上 界 ， 我 们 需要 证 明 的 是 : 存在 常数 CEHA NAA PAC 可 学 习 ， 并 且 样 本 
复杂 度 满足 : 

m, (eð) < C 


我 们 将 证 明 一 个 略为 松弛 的 界 ， 
m, (€,0) < Cogtdre) T int18) sde) mye (28. 1) 


d +In(1/d) 
e? 


而 定理 中 更 为 紧 的 界 则 需要 更 为 复杂 的 证 明 ， 必 须 对 拉 德 马赫 复杂 度 做 更 仔细 地 分 析 ， 甚 
中 用 到 了 一 种 称 为 “ 链 ” 的 技术 。 这 些 内 容 超 出 了 本 书 范畴 。 
为 了 证 明 式 (28. 1)， 只 需要 说 明 ， 对 样本 大 小 
wed sd .log( +4 » (8dlog(e/d) + 2log(4/8)) 
采用 ERM 准则 能 够 得 到 关于 戏 的 s，86 -学 习 器 。 我 们 将 在 定理 26.5 的 基础 上 证 明 该 结果 。 
TX MIs tts Ans Ym) 为 用 于 分 类 的 训练 集 。 回 顾 Sauer-Shelah 引 理 ， 如 果 
VCdimGD =d, IBZ 


d 
| {ChCX1) se sh Xn) sh E H? Es Fr 


d 
构造 A= ii i lia yay DREH) o 该 式 清 晰 地 表示 出 
em\4 
EI 


将 此 式 与 引 理 26. 8 结合 起 来 我 们 可 以 得 到 如 下 关于 拉 德 马赫 复杂 度 的 界 : 


R(A) < [2dlog(em/d) 
m 


再 利用 定理 26. 5 我 们 得 到 ， 以 至 少 1 一 6 的 概率 ， 对 每 个 EK 能 推出 


Lp(h) —Ls(h) <, /Sdog(em/d) | /2log(2/6) 
m m 


重复 之 前 有 关 减 去 0 一 1 损失 的 讨论 ， 然 后 运用 联合 界 ， 我 们 得 到 ， 以 至 少 1 一 6 的 概率 ， 
XE hEHA FRR: 


| Lp h) — Ls(h) |<, /StlogCem/d) | /2log(4/6) 
m m 
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<2 8dlog(em/d) + 2log(4/6) 


m 
为 保证 其 小 于 s， 我 们 需要 
m > + « (8dlog(m) + 8dlog(e/d) + 2log(4/8)) 
€ 


使 用 引 理 A. 2， 使 得 上 一 不 等 式 成 立 的 充分 条 件 是 
m>4 -i 。 log(“ +4 e (8dlog(e/d) + 2log(4/8)) 


这 里 我 们 需要 证 明 : 存在 常数 C 使 得 1t 为 不 可 知 PAC 可 学 习 ， 并 且 样本 复杂 度 满足 
m Cody p CË + ml 


分 两 步 来 证 明 该 下 界 。 第 一 ， 我 们 证 明 mle, 8&0. 5log(1/(48))/e?, S, RIIE XT 
每 个 51/8 有 m(e，6) 宇 8d/e*。 由 这 两 个 界 即 得 证 。 


28.2.1 证 明 m(e，6) 宇 0. 5log(1/(48) )/e? 


我 们 首先 证 明 对 于 每 个 e 二 1/Y2 和 5E(0，1),， 有 m(e，8) 主 0. 5log(1/(48)) /e2, WIE 
到 此 绪论， 我 们 说 明 对 于 mx 二 0. 5log(1/(46))/e:，HX 是 不 可 学 习 的 。 
挑选 被 丸 打 散 的 一 个 样本 。 即 是 , Sc 为 一 个 样本 ， 使 得 存在 hi，h EH， 其 中 
h+(c)=1 和 hh_(c) 二 一 1]。 定 义 两 个 分 布 D; 和 D_， 对 于 2E{ 士 1} 有 
| = ybe +t 
DUA -1 “nt 
0 其 他 


ME, MARPEM DMC =D, He, DREE, c, ohi 
gaei, 

& A 为 任意 算法 。 WD, 采样 得 到 的 训练 集 的 样式 是 S= Cc, Wn p Gé Jno Al 
此 ， 训 练 集 被 向 量 y= Cs +) yn) E CEL)” 完全 刻画 。 一 旦 收 到 训练 集 S， 算 法 A 将 返 
ERA: X> (+1). BERR REED, 上 的 A 的 误差 取决 于 h(c)，, 我 们 可 以 将 A 看 作 从 
{ 士 1}” 到 { 士 1} 的 映射 。 因 此 ， 我 们 用 取 值 于 { 士 1} 的 A(y) 代 表 对 h(c) 的 预测 值 ， 其 中 及 
是 算法 A 在 收 到 训练 集 S 一 (c，y,)，…，(c，y,) 后 输出 的 假设 。 

注意 到 对 任意 假设 九 有 

Lp (h) = 一 


特别 地 ， 用 hs 表示 贝 叶 斯 最 优 假 设 ， 那 么 
Lp, (A(y)) —Lp, (h) =1—AG)be 1—e_ fe #AQ)#b 
p,(AC(y)) — Lp, (hy) : 7 0 其 他 
固定 A。 对 于 5€E{ 土 1}, SY’'={yE{0, 1}":A(y)4b}, BBASHAD, 引出 在 { 土 1)”* 
EN Pia 因此 ， 
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PLLp,(A(y)) —Lp, (ho) =e] = DY") = X Poly] Lael 


构造 N+ ={y:| {i: y= 二 1} | >m/20 N ={41)"\ Nt 。 注 意 到 对 任意 yE N APs Lyl= 
P_[y], 并 且 对 任意 yEN 有 P-Lyj 宇 P+Lyj]。 因 此 ， 
max Pl lp, CAU) — Lp, Cho) = e] 


= max x UP. Ly] liay 


= DP [y] 1 [AA+] q= PE [y] Lacy —] 


=7 > , P+ Cy] itaya HPL [Ly] tae 


十 5 y (P+ Lylian + P_Ly] ag) 


?EN 
>t Ža S [y] liay TE Ly] Draws ] ) 
yeN* 
3 TO (P, Ly] layan + P+ Ly] Draw) 
2 EN 
=} P_(+5 P [y] 
yeN* ?EN 


接 下 来 注意 到 >, P_[y] = >， P:[y]， 其 值 均 为 服从 二 项 分 布 (mw，(1 一 e)/2) 的 随机 变 


量 的 值 大 于 六 入 的 概率 。 使 朋 引 理 B. 11， 该 概率 的 下 界 为 
5 (1— vI exp me/A—2))) > (1— VI exp 2m) ) 
该 不 等 式 中 我 们 利用 了 假设 e 二 1/2。 由 此 如 果 m0. 5log(1/(46))/e? 那么 存在 2 使 得 
P[Lp,(A(y)) — Lo, h) =] >> (1-1 sJ) >ò 


遵从 标准 的 代数 操作 ， 可 以 得 到 最 后 一 个 不 等 式 。 以 上 推出 了 需要 证 明 的 结论 。 
28.2.2 WEB m(e, 1/8)=8d/e* 


FATE BAT BES e<1/(8 V2) mle, 8)>8d/e?. 

& o 王 8s， 可 以 看 到 oE (0，1/Y2)。 我 们 将 构造 如 下 分 布 族 。 首 先 ， {cry ee, 
ca} HEHHE d SERINE. Fi. MESH, - pte pa Pa 
满足 


a te a 
Day) = 4 > 着 jist — 0; 
0 其 他 


Ble, ASAD, 中 采样 ， 我 们 首先 从 集合 C 中 等 概率 地 随机 挑选 一 个 元 素 c;， 然 后 以 概 
率 (1 十 p)/2 将 标志 设置 为 b;， 以 概率 (1 一 p)/2 设置 为 一 b;。 
很 容易 验证 对 于 分 布 D, 的 贝 叶 斯 最 优 预测 器 是 对 所 有 ieE [qj 满足 h(c)==6b, 的 假设 
hEXNH， 其 误差 为 (1 一 p)/2。 此 外 ， 对 任意 函数 f:X>{+1}, RDW 
Lp, (f) = Le : iE ae | +58 : lie ead Kei) = b;} | 
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因此 ， 
Lp,(f) — minLp, (h) =p" ME [dla feep 2 bb (28. 2) 
接 下 来 ， 固 定 某 个 学 习 算 法 A。 如 同 证 明 “ 没 有 免费 的 午餐 ”定理 中 那样 ， 可 以 得 到 


max E | Lp,(A(S))—minLp, Ch) | (28. 3) 


344 


> EE [|Lp, ACS) — minlps Ch) | (28. 4) 


D :b~UUI} dy on 


| {i € [d]:ACS)(c;) Æ bi} 
= E | , E | p . ee 
D sb~UC41)") S~D} 


| (28. 5) 


d 


=£ 5) E E A A(S)(C,) 46; | (28. 6) 


d i=1 D »b~UC{(+1)%) sip 
其 中 第 一 个 不 等 式 来 自 式 (28. 2) 。 此 外 ， 根据 分 布 P， 的 定义 ， 我 们 可 以 首先 从 分 布 S~D, 
中 采样 (7 ja) ~U(Ld])”, TR; ’ 最 后 根据 Pls =b J=— C+ )/2 采样 Yro faj 
化 符号 ， 使 用 y 一 0 来 代表 根据 PLy=bJ=C1+p)/2 采样 。 因 此 ， 式 (28. 6) 右 边 等 价 于 


d 
T t2 E E E ! lacsyce 344,1" (28. 7) 


d i=] j~U(d)™ 6~UC41)}7) Vo, bj, 


现在 分 两 步 来 推进 。 首 先 ， 我们 证 明 在 所 有 的 学 习 算 法 中 ， 最 小 化 式 (28.7)( 因 此 也 最 小 
化 式 (28. 4)) 的 A 就 是 最 大 似 然 学习 规 则 ， 用 Am 来 表示 。 正 式 地 ， 对 每 个 i，Am(S)(c;) 
等 价 于 在 集合 {y,:rELmj]，z, 二 c;} 上 进行 多 数 票 决 。 第 二 步 ， 我们 针对 Am 算法 降低 式 
(28.7) 的 界 。 


引 理 28. 1 在 所 有 的 算法 中 ， 最 小 化 式 (28.4) 的 算法 A 即 为 最 大 似 然 算法 Am ， 其 
被 定义 为 
Vi, Am C9) Ce) = sign( T y, ) 


eo ee 


证 明 固定 某 个 JELzaj”"。 注 意 到 给 定 7 和 yE{ 土 1)”"， 那 么 训练 集 S 被 完全 确定 。 
因此 我 们 用 AG. RANE ACS). TATE Eld], HREIN O, oe. biis binis 
es bm)» ERF, IHES yELt1 |", > y REEI j =r 的 指标 对 应 的 y PATCH. y 
则 代表 > 中 其 他 元 素 。 可 以 得 到 


ou E laoc] 
b~UC41)4) Vr 


l 
F 2PLylb™ 56; | Tag, Wle,) #b; | 


2 ETA) 6” ae 
. p: inden APL lo~ Iya, Si Ply |b; rao. yc Ab; | ) 
当 A()，y)(c;) 使 得 在 b E (E1 EW PLy! jb, ] 最 天时， 上 式 括 号 中 的 和 也 达到 最 小 。 此 
时 ，A(j，y) (ci;) 也 正 是 最 大 似 然 规则 。 以 此 类 推 ， 对 所 有 的 i 者 成立。 结论 得 证 ， a 
固定 7. MES 7, Onit =i] ) 代 表 样 例 为 c; 的 样 例 个 数 。 采 用 最 大 似 然 规 
则 ， 可 以 知道 下 式 


lra (S) te: Jb: ] 
bnU y Vry b ni ai 
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正好 是 满足 二 项 分 布 (n;(j)，(1 一 p)/2) 的 随机 变量 的 值 大 于 n G)/2 的 概率 。 利 用 引 理 
B. 11， 再 加 上 假设 m*<1/2， 得 到 
PLB >n: G)/2] <4 (1— V1 — ee") 


因此 可 以 推出 
d 
£L E E D deen 
d >, j=u[ad]" b=U[ Vryp bj [ACS)¢ Ab; | 
d 
ee fn: ; 
Sf>) E (Ivie) 


1 j~ur [d])™ 


>A) B (1-Vv%FnG) 
i=] j~Ut{d])” 
最 后 一 个 不 等 式 中 我 们 使 用 了 不 等 式 l—e “Sas 
因为 平方 根 函 数 是 凹 的 ， 应 用 往生 不 等 式 ， 可 以 得 到 上 式 的 下 界 为 


d 
=A > (1—, /2¢ iG 
APAL, P eden G) 


=£ 5 (1— VIP md) 


2d = 
=£(1— /2p°'m/d) 


只 要 mm<d/8o ， 这 一 项 就 会 比 /4 K. 
总 的 来 说 ， 我 们 已 经 证 明了 ， 如 果 m 二 d/8p: ， 那 么 对 于 任何 算法 ， 都 存在 一 个 分 布 
使 得 
E [Lp(A(S)) — minLp (h)] > p/4 


sp” 
最 后 ， $ A= (Lp (ACS) —mimen Lo (h)), 又 注意 到 AGE[L0，1]( 人 参见 式 (28.5))。 因 
此 ， 利 用 引 理 B. 1， 得 到 
PpP[Lp (ACS)) — minLp(h) > e]= PLA> ry > EA] ~~ 
i 
> 4 
MIN ex Lp (h) =e; 


28.3 可 实现 情况 的 上 界 


这 里 我 们 需要 证 明 存在 常数 C 使 得 HX 为 PAC 可 学 习 ， 并 且 样 本 复杂 度 满 足 
mn (ed) < Cain +n) 
> 


pel 
p 
么 以 至 少 1/8 的 概率 得 到 Lp (ACS)) — 


我 们 将 证 明 对 于 m>C SPC 二 mL ， 采 用 ERM 准则 ,XK 是 可 学 习 的 。 我 们 将 在 
e -网 的 概念 下 证 明 上 述 论 断 。 

定义 28.2(e- 网 ) 令 蕊 为 定义 域 ，SC 和 在 分 布 D 上 对 于 了 CC2z 是 一 个 s -网 ， 如 果 下 
式 成 立 
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en 一 


VhEH: Dih)Se>hN SHO 
定理 28.3 SHC2*, H VCdim(H)=d. HZ E0, 1), EO, 1/4) HBF 


m>— Š ( 2dlo g(*°)+log( 4 S )) 
那么 ,、 对 于 样本 S~D", WEY 1 一 6 的 概率 有 S 关于 和 4 是 一 个 es- 网 。 
证 明 令 
B=({SC:X#|S|=m,54h EHDA) Zeh NS =Ø} 
为 不 是 -网 的 集合 所 构成 的 集合 。 我 们 需要 为 PLSE Bj 定 界 。 定 义 
= {(S,T) C#:|S|= |T|=m, 3h E HDA Seh N S= ITAL >F 
论断 1 
PLS € B] <2 P[(S,T) € B'] 
论断 1 的 证 明 既然 S 和 T 都 是 独立 选取 的 ， 那 么 我 们 可 以 推出 
PI(S,T)EB]= E les, pes] = E | E Les. nee | 


EDD” SB “TD 


注意 到 (S，T)E€B' 上 暗示 了 SEB， 因 此 1ccs.neB1] 二 1tcs,neBJ1rses]， 并 得 到 
PL(S,T) € B']= E E Ics, nes’) Uses) 


S~D” T~D" 


= E [1 E ‘lrcs, rep 
sp" TB 


固定 S。 那 么 ， 无 论 是 1rsesj 二 0 HE SEB, 都 存在 hs 使 得 D(hs) 宇 e #H|hsNS|=0. 
个 结论 来 自 于 (S，T)E B' 的 充分 条 件 是 | Ths | >. Butt, RE SEB 都 有 


E Lisnes] 之 P ATAR 
rp” Tp" 


但 是 ， 因 为 现在 假设 SEB， 所 以 有 D(ns) 王 >es。 因 此 ，|T 人 As | 是 满足 参数 为 p( 单 次 试 
验 的 成 功 概率 ) 和 xm( 试 验 总 次 数 ) 的 二 项 分 布 的 随机 变量 。 切 尔 诺 夫 不 等 式 表 明 


PUIT T Asl Sal < e Kimm? 一 pl? < ee < giaa — l L 1/92 
因此 ， 
PUT Nis Sls i=l e S TST A a TS 


结合 前 述 所 有 ， 我 们 完成 论断 1 的 证 明 。 
论断 2( 对 称 性 ) 
PL(S.T) € B'] <6" ry (2m) 
论断 2 的 证 明 为 了 简化 符号 ， 令 a5me/2, HIFZI A= (Ti, t, Lm), SA = 
EE w da 利用 刀 的 定义 ， 我 们 得 到 


PLA € B’ |= max ll 1 e =, 
l = | R hEH [Dih] [ | ANA, | =0] 1; | ANA | >a] 


a E, max 1; | AMA, | =0] Le | anal Sa 
A~D m hEH 


现在 ， 通 过 Xs 来 定义 在 A 上 的 不 同 假设 的 有 效 数字 ， 即 ,HX 二 {nh 门 A:hEXU}。 由 此 ， 
PLA € B']= p „ maX l lana, | =0] At | anal Se 


A~ 
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< n, „ MAX ir ana | =o} Ap} anal Se] 
A> 


4 J 二 {jClL2mj: | 了 | =m}. 对 任意 FE A A= (Cris “,， Lam) FEM Ay = Cj, je FE Hy die 
因为 A 中 元 素 是 独立 同 分 布 选取 出 来 的 ， 那 么 对 任意 JEJ AER RRR f(A，Ao) 都 满足 
Ba~p"L f(A, Ao) = 了 Apm[LFCA，Ai)]。 既 然 该 等 式 对 任意 了 都 成 立 ， 那 么 它 对 从 了 中 


随机 选取 的 j7 的 期 望 也 成 立 。 特 别 地 ， 它 对 函数 ACA, A) = p2 De ana, | =o7 Le | anA | Se E 


成 立 。 因 此 可 以 得 到 
PLA € B J E max iana, | =0) Út anal Sa 


j~J he 


= p max Er) any | =a) E, De | ana, | =0] 
Ap * 


现在 ， 固 定 算法 A EIR |ANA|Se. BBA, E; Iri ANA, | We 少 有 a 个 红 球 的 包 里 


拿 出 的 m 个 球 中 无 一 为 红 球 的 概率 。 这 个 概率 至 多 为 
(1—e/(2m))”" = (1— </>" <= er 


因此 可 以 得 到 
RAC BIS B po“ ger E [Ha] 


A~D'hEH, A~D™ 
采用 生长 函数 的 定义 ， 我 们 完成 论断 2 的 证 明 。 
完成 证 明 ”基于 Sauer 的 引 理 我 们 知道 mw (2xx) 二 (2exz/cd)4 。 将 该 式 与 前 述 两 论断 结 
合 ， 可 以 得 到 
PLS € B] <2 (2em/d)?e""" 


我 们 希望 不 等 式 右 侧 至 多 为 6。 即 
2 (2em/d)“e™ <6 


重新 整理 一 下 ， 可 以 得 到 对 m 的 要 求 是 
mE £ (dlog(2em/d) + log(2/8)) = fd log(m) + 全 (dlog(2e/d) + log(2/8)) 
利用 引 理 A. 2， 使 得 前 述 式 子 成 立 的 充分 条 件 是 
m > dlog($8)+ £ cdlog(2e/d) 十 log(218) 
进一步 地 ， 上 式 的 充分 条 件 是 
m> Halog (84) + 2 (dlog(2e/d) + log(2/a) 


m 16d (log (82°) + 8 log(2/6) 


= © (2dlog (“2s *)+ log (= )) 
证 明 完 成 。 a 
从 s -网 到 PAC 可 学 习 


定理 28.4 AHA AX LYRE, 且 VCdim(H) =d, SDAXLHDA, cCCHZA 


WARK. Be, SEO, 1), HA m 如 定理 23.3 中 定义 的 那样 。 那 么 ， 在 从 寺中 选 出 的 
m 个 独立 同 分 布 的 样 例 ， 且 各 自 符号 根据 c 来 制定 ,将 至 少 以 ry 任何 ERM 假 [349] 
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设 的 真实 误差 至 多 为 e。 
WEAR ”定义 类 X= 二 {ch:hEKM)}， 其 中 c 八 h 二 (h\c)U(c\ 有 hh)。 容 易 验 证 如 果 某 个 
ACA HERAT RM, AAC IL HERH Flam. RIA. Alt. VCdim(H) = VCdim(H’), 
因此 ， 根 据 定 理 28.3， 可 以 知道 以 至 少 1 一 6 的 概率 ， 样 本 S 是 Xr 的 s- 网 。 注 意 到 
Lp (h)=DthAc). Ak, SERA Lp Se HhAEH, Al (hAc)MS|>0. x Ra S 
不 可 能 是 ERM 准则 。 定 理 得 证 。 5 
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多 分 类 可 学 习性 


在 第 17 章 中 我 们 介绍 了 多 分 类 问题 ， 目 标 是 学 习 一 个 预测 器 VLR], ERAPR 
们 提出 基于 0 一 1 损失 函数 下 PAC 算法 的 多 分 类 预测 需 的 可 学 习性 。 正 如 第 6 章 中 讲述 
的 ， 这 一 章 的 主要 目标 是 : 

@ 描述 多 分 类 问题 的 假设 类 的 特性 在 (多 分 类 )PAC 模型 下 是 可 学 习 的 。 

o 量化 此 类 假设 类 的 样本 复杂 上 度 。 

鉴于 学 习 理 论 ( 定 理 6.8) 中 的 基本 定理 ， 我 们 很 自然 地 想 探索 多 分 类 假设 类 中 VC 维 
的 泛 化 。 在 29. 1 节 中 我 们 将 要 展示 这 样 一 个 泛 化 ， 称 为 纳 塔 拉 魔 维 (Natarajan dimen- 
sion)， 并 且 陈 述 基 于 纳 塔 拉 詹 维 的 基本 定理 的 一 个 泛 化 。 然 后 我 们 论证 如 何 计 算 知 干 重要 
的 假设 类 的 纳 塔 拉 人 詹 维 。 

回想 学 习 理 论 中 基本 定理 的 主要 信息 ， 就 是 说 一 个 二 分 类 假设 类 是 可 学 习 的 (基于 0 一 
1 损失 )， 当 且 仅 当 它 有 一 致 收敛 特性 时 ， 假 设 类 在 任意 的 ERM( 经 验 风 险 最 小 化 ) 准 则 下 
是 可 学 习 的 。 在 第 13 章 中 的 练习 29. 2， 我 们 展示 了 这 个 类 学 习 问 题 可 以 等 值 分 解 成 一 个 
确定 的 凸 集 学 习 问 题 。 本 章 的 最 后 一 节 致 力 于 说 明 介 于 学 习性 和 一 致 收敛 性 上 的 等 值 分 
解 ， 甚 至 在 多 分 类 问题 亦 如 此 。 实 际 上 ， 我 们 构造 了 这 样 一 个 假设 类 ， 它 可 以 被 一 个 特定 
的 ERM 准则 学 习 ， 但 是 对 于 其 他 的 ERM 评价 准则 也 许 就 会 失效 ， 且 不 保持 一 致 的 收敛 
特性 。 


29.1 Mise 


FE IX — EP FTE ASRS. EES RAH ae TRASH VC 维 的 一 个 泛 化 的 概 
ho RAI, HE—PS ATH ae RER; 每 一 个 h€EXH 是 一 个 从 定义 域 ( 样 本 集 ) 
人 到 值 域 (类 )[kj 的 一 个 函数 。 

要 想 定义 纳 塔 拉 人 詹 维 ,我 们 首先 泛 化 “ 打 散 ”的 定义 。 


定义 29. 1( 打 散 ( 多 分 类 角度 )) 我们 说 一 个 集合 CC 被 入 打 散 ， 如 果 存 在 两 个 函数 
fos fiı:C>Lk Ue 
@ 对 每 一 个 二 EC fola) Æfilz). 
@ e4—-—+* BCC, FA—-+A BRAECH, 使 得 YXEB, h(x) 二 h(x) 并 且 YrxE 
C\ B, hk(r)= (2) 
定义 29. 2( HBG AH) 假设 类 姑 的 纳 塔 拉 麻 维 表示 为 Ndim(XH)， 是 被 打 散 的 集合 
CCAM RAR. 


在 这 种 情况 下 很 容易 看 出 ， 确 切 地 说 对 于 二 分 类 ，Ndim(XK) 二 VCdim(X)。 因 此 ， 纳 
塔 拉 詹 维 (Na 维 ) 泛 化 了 VC 维 。 接 下 来 我 们 展示 纳 塔 拉 人 詹 维 (Na 维 ) 允许 我 们 泛 化 针对 从 
二 分 类 到 多 分 类 的 统计 学 习 的 基础 理论 。 
29.2 多 分 类 基本 定理 

定理 29. 3( 多 分 类 基本 定理 ) 存在 绝对 常量 Cl，C2: 二 0 使 得 以 下 成 立 。 对 于 从 多 到 





(ht) BRM ESIRGLAH, HY Na 维 是 d， 我 们 有 
1. 戏 有 一 致 收敛 性 ， 样 本 复杂 度 为 
d+log(-—) dont +log(+) 


C, a my (ed) =. C; ee 
E 


2. HRA TH PAC 可 学 习 的 ， 样 本 复杂 度 为 


d+log(= ; dlog(k) + log(—) 
0 2 < med < G ——3— 


3. HÆ PAC 可 学 习 的 (假设 可 实现 性 )， i 


A AA 
定理 29. 3 的 证 明 


在 定理 29. 3 中 ， 下 界 可 以 被 二 分 类 基础 理论 中 的 约 简 推断 出 来 ( 见 练习 29.5). 

在 28 章 中 给 出 了 二 分 类 基础 理论 的 证 明 过 程 ， 沿 着 这 个 证 明 主 线 ， 定 理 29. 3 中 的 上 
界 可 以 被 确定 下 来 ( 见 练习 29. 4)。 证 明 中 唯一 需要 以 复杂 方式 修改 的 要 素 是 Sauer 引 理 。 
它 只 应 用 在 二 分 类 问题 ， 因 此 必须 被 取代 。 能 够 合适 地 替代 它 的 就 是 纳 塔 拉 詹 引 理 : 


引 理 29. AAAH) HILI | Ndim00 。R2Ndim00 
纳 塔 拉 詹 定理 的 证 明 采 用 了 Sauer 引 理 的 证 明 精髓 ， 留 作 练习 ( 见 练习 29.3). 


29.3 HAARR EH 

在 这 一 章 中 我 们 讲述 如 何 计算 (或 估计 ) 几 个 著名 的 类 的 纳 塔 拉 詹 维 Ndim(H), ， 其 中 
的 几 个 我 们 已 经 在 17 章 中 讲 过 。 正 如 这 些 计算 表明 ， 纳 塔 拉 詹 维 总 是 和 所 要 求 定义 的 假 
说 中 的 参数 的 个 数 成 比例 的 。 


29. 3. 1 基于 类 的 一 对 多 

在 第 17 草 中 我 们 已 经 目睹 了 多 分 类 问题 到 二 分 类 问题 的 两 种 约 简 方法 : 一 对 多 和 一 
对 一 。 在 这 一 小 节 中 我 们 计算 一 对 多 方法 的 纳 塔 拉 人 詹 维 。 

回想 我 们 训练 过 的 一 对 多 方法 ， 对 于 每 一 个 标签 ， 二 分 类 器 区 别 开 正 确 标签 和 其 他 的 
标签 。 在 接 下 来 的 形式 中 ， 很 自然 地 建议 考虑 多 分 类 假设 类 。 令 Hi,C{0，1)z* 是 一 个 二 分 


类 假设 类 。 每 一 个 hh=(hi，…， 反 )E (KH )*， 定 义 TA) XLRI 
TIC) = argmaxh; (x) 
如 果 存 在 两 个 标签 最 大 化 h;(x)， 选 择 较 小 的 那个 标签 。 男 外 ， 令 HA 二 {TT(h) hE 
(Kw,)”}。 什 么 应 该 是 WBA* 的 Na 维 ? 直观 地 讲 ， 要 想 详 细 列 举 X, 的 假设 类 ， 我们 需要 


d=VCdim (Hin ) 的 参数 。 要 想 详 细 列 举 HB*“ 的 假设 类 ， 我 们 需要 个 Hi, 中 的 假设 类 。 因 
IE, kd 个 参数 就 可 以 满足 要 求 。 接 下 来 的 引 理 确定 了 这 一 直觉 上 的 猜想 。 


引 理 29.5 ”如果 d=VCdim(H,,,), A) 
Ndim (HM) < 3kdlog(kd ) 
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证 明令 CCX 是 一 个 被 打 散 的 集合 。 由 打 散 的 定义 (对 于 多 分 类 假设 ) 可 得 ， 
| 人 ie] 
另 一 方面 ， 允 ,中 的 有 类 假设 类 决定 了 He “中 每 一 个 假设 类 。 因 此 ， 
| Het. | <= | CHyin dc | ‘ 
由 Sauer 引 理 知 ， 
| Heine |< IC 
推导 出 
2 el e 
接 下 来 证 明 采 用 对 数 并 且 应 用 了 引 理 A. 1, 2 
引 理 29. 5 是 否 严 格 成 立 ? 不 难得 出 ， 对 于 某 些 假设 类 ，Ndim(7g&…) 比 dk 更 小 ( 见 练习 
29. 1) 。 然 而 ， 存 在 若干 天 然 的 二 分 类 问题 ，Ws (例如 半空 间 ) 的 Ndi HRS) =O dk) ULE 
习 29.6). 


29. 3.2 一般 的 多 分 类 到 二 分 类 约 简 
对 于 更 多 一 般 意 义 上 的 多 分 类 和 二 分 类 之 间 的 转化 中 的 约 简 问 题 ， 可 以 用 文 撑 引 理 
29. 5 成 立 的 理由 来 约束 其 Na 维 。 这 些 约 简 方法 基于 数据 训练 了 若干 个 二 分 类 器 。 然 后 给 
出 一 个 新 实例 ， 它 们 将 一 些 二 分 类 需 预 测 出 的 标签 考虑 进去 ， 通 过 这 样 的 规则 预测 出 了 新 
标签 。 这 些 约 简 包 括 一 对 多 和 一 对 一 。 
假设 有 这 样 一 个 方法 ， 它 可 以 从 一 个 二 分 类 假设 类 Ks, 训练 i 个 二 分 类 器 ， 并 且 存 在 
一 个 规则 ~:{0，1 关 一 LA， 根据 二 分 类 器 的 预测 ， 这 条 规则 决定 了 (多 类 ) 标 签 。 按 照 这 个 
方法 假设 类 可 以 定义 如 下 : 对 于 每 一 个 及 ==(h，…，h)E (KH,)'， 定 义 RA) X[k 
Rh) (ax) = rh (zr), ,h(x)) 
最 后 ， 令 
Hi, = (Rh) :h € (Hy, DO 
与 引 理 29.5 相似， 可 以 证 明 如 下 引 理 29. 6: 
引 理 29.6 +e d=VCdim(H,,), N) 
Ndim(Hj,,, )<3ldlog(d) . 


证 明 留 给 读者 ， 见 练习 29.2, 


29.3.3 ”线性 多 分 类 预测 器 


接 下 来 ， 我 们 考虑 线性 多 分 类 预测 器 的 假设 类 ( 见 17. 2 4). 令 亚 :XX[k] 一 R 是 一 
些 敏感 类 的 特征 映射 ， 并 且 
He = {zx Hargmax( w,W(2,i)):w E R) (29. 1) 


在 Hy 中 的 每 一 个 假设 取决 于 d 个 参数 ， 即 ， 向 量 wER 。 因 此 ， 我 们 希望 纳 塔 拉 詹 维 有 
EF d, FKEA: 


定理 29.7 Ndim(H,)<d, 


WA HAEA CCX, $ 厂 ， 刀 :C->[A] 是 证 明 打 散 集 合 的 两 个 函数 。 我 们 需要 证 
明 |C| 委 &。 对 每 一 个 zEC， 令 o(x)=Wla, fo(x))—Wa, filx)), 我们 声明 ， 集合 


def 
pCO) = (olx): £E CHER! (d 维 欧式 空间 ) 上 由 | C| 个 元 素 ( 例 如 o 是 一 对 一 的 映射 ) 构 成 并 
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且 被 齐 次 线性 分 离 器 的 二 分 类 假设 类 打 散 ， 数 学 表示 为 
H = {xpsign((w.x)):w E€ R°} 
因为 VCdim(H)=d, 得 出 |1C| = 二 |p(C) | 二 4， 正 如 所 要 求证 明 的 。 
为 达到 我 们 的 要 求 ， 需 要 证 明 1Xc | = 二 21°1 。 事 实 上 ， 给 出 一 个 C 的 子 集 B， 基 于 
打 散 的 定义 ， 存 在 hs CHy 使 得 
Vi EB,hs(r) = folz), Vx EC\B,hs(zx) = fila) 
令 wpsER 是 一 个 定义 hs 的 向 量 。 我 们 有 ， 对 于 任意 一 个 xE 了 B， 
(w,Wl2r,fo(x))) > (w, Wa, fi (x) ) (woz) > 0 
相似 地 ， 对 于 任意 一 个 zxEC\B， 
(w,o0(xr)) <0 
由 此 可 得 同样 被 w CR! 定义 的 假设 类 gpEX 把 向 量 p(B) 中 的 样本 点 标记 为 1， 疝 量 p(C\ 
B) 中 的 样本 点 标记 为 0。 因 为 这 样 的 标记 适用 于 每 一 个 BCC, 得 出 |C| = |0], 
| Hie, | 二 2 ， 证 明 了 我 们 的 结论 。 加 
定理 严格 成 立 的 条 件 是 ， 存 在 一 个 映射 WAG Ndim(Hy) 二 Ql(d)。 例 如 ， 该 定理 满 
足 多 向 量 ( 多 重 向 量 ) 的 构造 ( 见 17. 2 章 和 本 章 末 尾 的 文献 评注 )。 我 们 因此 得 出 结论 : 


推论 29.8 AXR 并 且 亚 :XX[k]->R* 是 敏感 特征 的 类 构造 多 向 量 的 映射 : 
V(x,y) = | OO ,Zi Ens 0.…0 | 
— ——— ee 
eR ER’ ern 
BH, 如 等 式 (29. D PEL. WH, 的 纳 塔 拉 麻 维 满足 
(k—1)(m— 1) < NdimCH,) < kn 


29.4 好 的 与 坏 的 ERM 


本 节 我 们 提出 一 个 假设 类 的 例子 ， 该 假设 类 具有 的 特性 不 是 所 有 的 ERM 评判 准则 都 
能 适合 的 。 此 外 ， 如 果 人 允许 无 限 多 的 标签 ， 我 们 仍然 可 以 获得 一 个 被 ERM 准则 学 习 出 的 
一 个 假设 类 ,但 是 其 他 ERM 准则 也 许 会 学 习 失 败 。 很 明显 地 ， 这 说 明了 假设 类 是 可 以 学 
习 的 ， 但 是 它们 没有 一 致 的 收敛 性 。 为 简单 起 见 ， 我们 只 考虑 可 实现 的 情况 。 我 们 考虑 的 
假设 类 定义 如 下 。 实 例 空间 zt 是 任何 有 限 集 或 可 数 集 。 令 Pr (4) 是 直 的 所 有 子 集 的 聚合 ， 
包括 有 限 子 集 和 余 有 限 子 集 ( 也 就 是 说 ， 对 于 每 一 个 AE Pj(X)， 无论 是 A 还 是 YN\A 一 定 
是 有 限 的 集合 ) 。 标 签 的 集合 是 2y 王 Pr (XX) U {x 而 不 是 LE]， 其 中 * 是 一 些 特殊 的 标签 。 
对 每 一 个 AEPr(t)， 定 义 ha :XX->Y WF: 
A 工区 人 A 
ha(x) = nea 
最 后 ， 我 们 采用 的 假设 类 是 
H = aA E RAR 
& A 是 XH 的 ERM 算法 。 假 设 A 在 一 个 被 hs EX 所 标签 的 样本 集 上 操作 。 因 为 hs Ue 
一 可 能 返回 标签 A 的 假设 类 ， 如 果 A 观察 标签 A， 它 “知道 ”已 学 习 的 假设 类 是 ha, JF 
H, 作为 ERM 准则 一 定 要 返回 (注意 在 这 种 情况 下 假设 类 返回 误差 是 0)。 因 此 ， 指 定 一 
个 ERM， 我 们 应 该 只 指定 返回 的 假设 类 接收 一 个 如 下 形式 的 样本 : 
S= {zs * Jatilan *)} 
我 们 考虑 两 个 ERM 准则 :第 一 个 ，Apow 定 义 如 下 : 
Ma S) = he 
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也 就 是 说 ， 它 输出 一 些 假设 类 ， 这 些 假 设 类 对 于 每 一 个 zE 二 预测 出 " * ，。 第 二 个 ERM 


是 A tad ’ 定义 如 下 : 


Aa hu a 

接 下 来 的 声明 展示 了 Aua 的 样本 复杂 度 大 约 是 的 样本 复杂 度 的 1t1 倍 数 。 这 形成 

了 不 同 的 ERM 准则 之 间 的 裂口 。 如 果 忒 是 有 限 集 ， 我 们 甚至 可 以 获得 一 个 可 学 习 的 类 ， 
然而 并 非 是 对 于 任何 的 ERM 准则 都 可 学 习 的 。 


论断 29.9 
l. Ae, 0, DEHARAH DAR, HhacH., 令 S 是 由 加 之 二 log (地 ) 个 独立 同 分 


布 样本 构成 的 ， 根 据 D 采 样 并 且 标 签 是 has RE, Æ Agou 状 态 下 ， 假 设 类 以 至 少 1 一 6 的 
HZA E, 错误 率 至 多 是 e。 
2, 存在 一 个 常量 a 二 0， 使 得 对 于 每 一 个 0 和 es<a， 存 在 一 个 七 上 的 分 布 了 并且 ha EH, 


有 下 述 成 立 。 在 Au 状态 下 ， BAAR KD mA, 根据 DD 采样 并 且 标 签 是 ha, 
返回 的 假设 类 将 会 以 e-5 的 概率 出 现 一 个 不 小 于 e 的 错误 率 。 


证 明 DPD 是 的 分 布 , 假设 正确 的 标签 是 has。 对 于 任意 的 样本 ，Atws 返 回 hg 或 者 ha. 
WREE hs， 那么 函数 的 真实 误差 是 0。 因 此 ， 返 回 一 个 错误 率 不 小 于 e 的 假设 类 当 且 仅 
当 样 本 中 全 部 m 个 例子 来 源 于 \A， 同 时 Lp (hg ) 二 PpLAj] 中 hg 的 错误 率 不 小 于 e。 假 


定 m 之 二 log (二 ); 后 者 的 概率 仅仅 是 (1 一 e)"<e-™<8。 这 证 明了 第 1 条 ， 
接 下 来 证 明 第 2 条 。 我 们 限定 1X1 二 4<co 成 立 。 对 于 无 限 的 +t 的 证 明 是 相似 的 。 假 设 


R= {zo 9 "sy wd—l fa 


OO aul 定义 一 个 二 上 上 的 分 布 ， 
P[zxo j= 二 1 一 2e。 对 于 所 有 的 l<i<d—1, P[zi] 一 了 和 。 假 设 正确 的 假设 类 是 ho, EEE 
Kiem, WASH, BE Au 返回 的 假设 类 将 会 a ERREX PHR., REYR 
诺 夫 界 ， 如 果 m< +, ARAMA i ERE PEAR, tt 
返回 的 假设 类 会 有 不 小 于 es 的 错误 率 。 

从 例子 中 得 出 结论 : 在 多 分 类 中 ， 样 本 复杂 度 随 着 不 同 的 ERM 评判 准则 可 能 会 不 
同 。 对 于 任意 的 假设 类 是 否 存 在 “好 ”的 ERM 评判 准则 ? 接 下 来 的 猜想 给 出 了 问题 的 答 
案 是 : 存在 。 

猜想 29.10 ”每 个 假设 类 HCL[R|# 的 可 实现 的 样本 复杂 度 是 

My E0) = o( San) 
我 们 强调 符号 O00 可 能 只 隐藏 了 e、6 和 Ndim() 的 广义 对 数 因 子 ， 没有 隐藏 的 因子 。 


29.5 文献 评注 


ANTS DS aR A TORS 1989 年 发 表 的 一 篇 文章 ， 并 且 那 篇 文章 确立 了 纳 塔 拉 佑 
引 理 和 泛 化 的 基本 定理 。 关 于 纳 塔 拉 詹 引 理 的 泛 化 和 更 明晰 的 版 本 是 Haussler 和 Long 于 
1995 年 研究 提出 的 。Ben-David，Cesa-Bianchi，Haussler 和 Long 在 1995 年 定义 了 关于 





维度 概念 的 大 家 族 ， 这 个 维度 定义 泛 化 了 VC 维 并 且 可 能 被 用 来 估计 多 分 类 问题 的 样本 复 


杂 


纳 塔 拉 詹 维和 其 他 假设 类 的 计算 可 以 在 Daniely 等 (2012) 中 找到 。 基 于 好 的 和 坏 的 类 


上 的 ERM， 以 及 猜想 29. 10， 都 是 来 源 于 Daniely (2011), 


29.6 练习 
29.1 &d, k>0, 证 明 : 存在 VC 维 是 4 的 二 类 假设 函数 集 X,, ， 使 得 Ndim(HO*) =d, 
29.2 证 明 引 理 29.6, 
29. 3 ”证 明 纳 塔 拉 人 詹 引 理 ，。 
提示 : 固定 样本 点 DEX, AT i JER] HAM BR FX \ {zo} 一 [kj] 记 作 XH,， 
并 且 可 以 通过 定义 f(zo) 二 i fe fro) =j 扩展 到 戏 中 的 一 个 函数 。 用 归纳 法 证 明 
HISE Herl t >) Hy! 
iF) 
29.4 ”根据 二 分 类 基础 定理 和 纳 塔 拉 詹 引 理 的 证 明 ， 证 明 对 于 全 局 常量 CSO, HAWS 
每 一 个 纳 塔 拉 詹 维 是 4 的 假设 类 ， 允 的 不 可 知 的 样本 复杂 度 是 m, (e，6) < 
Mog ey jogt 1 /ig 
So 
29.5 WH: 对 于 全 局 向量 C>0, If A —- AEE d 的 假设 类 ，X 的 不 可 知 
的 样本 复杂 度 是 m,e D>C HEUD, 
提示 : 从 二 分 类 基础 定理 推断 。 
29.6 GHAR’ 中 ( 非 齐 次 的 ) 半 空间 的 二 分 类 假设 类 ， 此 练习 的 目标 是 证 明 


Ndim(HO™**) > (d—1) 。(R 一 1]) 

D 令 Jaseee 是 满足 f:Lk-1]*Ld—1]—>(0, 1} OBR RAK, FETE i 对 于 任意 
的 jELd 一 1],， 有 以 下 结论 成 立 ， 4 Wii fG, P=0, Yii, fli, 
jo=1 Rv. 

证 明 Ndim(Hova:k ) = (d—1) 。(R 一 1) 。 

2) 证 明 : Hsorare 可 以 被 和 解释 。 也 就 是 说 ， 证 明 存 在 一 个 映射 jy: [k-1]<[d—1]> 
R, (848 HediscreeC {h © p: hEH}, 
提示 : 可 以 把 J(i，j) 看 作 是 一 个 向 量 ， 该 向 量 的 第 j 个 元 素 是 1， 最 后 一 个 元 
素 是 1， 其 余 元 素 全 部 是 0。 

3) HE: Ndim(HWSk)>(d—1) + (k-1), 
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本 书 中 ,我 们 已 尝试 采用 不 同 的 方式 来 描述 “可 学 习性 ”这 个 概念 。 从 最 开始 的 假设 
类 一 致 收敛 性 保证 成 功 学 习 ， 到 后 来 引入 稳定 性 来 反映 稳定 的 算法 可 以 保证 得 到 好 的 学 习 
器 。 然 而 ， 对 于 学 习 而 言 ， 还 有 一 些 其 他 的 充分 条 件 ， 本 章 以 及 下 一 章 将 介绍 两 种 新 的 条 
件 : 压缩 界 和 PAC- 贝 叶 斯 法 。 

本 章 将 重点 介绍 压缩 界 。 简 单 地 说 ， 如 果 一 个 学 习 算法 可 以 用 训练 集 的 一 个 小 子 集 来 
表达 输出 假设 ， 那 将 可 用 此 假设 在 其 余 样本 上 的 误差 来 估计 全 体 样本 的 真实 误差 。 换 言 
之 , 一 个 可 以 “压缩 ”其 输出 的 算法 就 是 一 个 好 的 学 习 带 。 


30.1 压缩 界 概述 


为 了 引出 压缩 界 ， 首 先 考虑 如 下 学 习 机 制 。 我 们 先 采 样 得 到 包含 个 样本 的 序列 ， 记 
作 工 。 基 于 这 些 样本 ， 构 建 一 个 假设 hr。 现在 我 们 想 要 估计 hr 的 效果 ， 因 此 我 们 采样 得 
到 男 一 个 包含 m 一 & 个 样本 的 序列 ， 记 作 V， 而 后 计算 hz 在 六 上 的 误差 。 由 于 六 和 了 是 
独立 的 ， 根 据 Bernstein 不 等 式 可 得 如 下 引 理 。 


引 理 30.1 假设 损失 函数 在 [0，1] 取 值 ， 那 么 ， 


P| Lo (hr) E AES [are 十 4 a < 


为 了 得 到 这 个 界 ， 我 们 仅 需 保证 六 和 了 的 独立 性 。 因 此 ， 我 们 可 以 重新 定义 之 前 的 
学 习 机 制 如 下 。 首 先 ， 在 长 度 为 不 的 序列 II 一 (人 ，…，z)ELm | 上 学 习 ， 之后， 采样 得 
到 m 个 样本 的 序列 S = Cz, tts Zm) ÆX === 和 ), VES 中 剩余 的 样 
本 。 由 于 这 个 机 制 与 之 前 的 机 制 是 等 价 的 ， 因 此 引 理 30. 1 依然 成 立 。 

利用 对 于 任意 长 度 为 & 的 序列 的 联合 界 ， 我们 得 到 如 下 定理 : 


定理 30.2 上 为 整数 ，B:Z* 一 HH 是 长 度 为 k 的 样本 序列 到 假设 类 的 映射 ,训练 集 规模 
m 宇 2k，A:Z”" 一 和 是 由 大 小 为 m 的 训练 样本 序列 学 得 假设 的 学 习 规 则 ， 使 得 对 于 菜 些 
(tis “4 in)€ Lm}, ACS) = Blz; » seek ži Dio Vz jE Gs ii. i )) 是 没有 选 来 定 
义 A(S) 的 样本 集 。 那 么 ， 对 于 任意 样本 集 S， 以 至 少 1 一 6 的 概率 下 式 成 立 : 


Lp(A(S)) < Ly (A(S)) +, /Ly(A(S)) Slog Gn/0) | 8klog(m/6) 
m m 


UE BA 对 于 任意 TE[m}, & hy = Biz » eS Zi, n=m— k, 由 引 理 30. 1 和 联合 界 


可 得 
P| Te [mF st Lohn = Lrt S | 
n n 
= > P| Eo hd — Lh) = Evi y Boga lag ms 
n 


1E Lm] 


id 8 二 mt6。 假定 过 m/2， 即 n= 二 m 一 k 宇 m/2， 由 上 式 可 得 以 至 少 1 一 6' 的 概率 有 下 
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ARF ARSE 
Lp (A(S)) < Ly(ACS)) +, | Ly (ACS)) EEMS 8klog(m/6 ) ri) 
证 毕 。 _ 


有 上 述 定理 可 直接 得 到 下 面 的 推论 。 
推论 30.3 假设 定理 30. 2 的 条 件 成 立 ， 并 假定 Lyv(A(S)) 二 0。 那 么 ， 对 于 任意 S， 
以 至 少 1 一 6 的 概率 下 式 成 立 : 
Lp(A(S)) < lgm 
由 上 述 结论 可 以 引出 如 下 定义 : 
定义 30. 4( 压 缩 机 制 ) 令 姑 是 一 个 从 区 到》 的 假设 函数 类 ， 为 整数 。 如 果 下 面 的 条 件 


PL, 我们 就 说 知 有 一 个 大 小 为 上 的 压缩 机 制 : 


É telti, h€a,))>, Sey CFs h(x )) 的 训练 集 输 入 到 A, 形 如 (Zi， ANZ Ds EMEL E 
h(x; ))) 的 训练 集 输入 到 B, APC, s h)Z AHA, Ah ATBAR, MAR 
R Ls(h )=0. 


对 于 不 可 实现 序列 的 情况 ， 可 以 容易 地 进行 如 下 推广 。 

定义 30. 5( 不 可 实现 序列 的 压缩 机 制 ) 令 驮 是 一 个 从 效 到 J 的 假设 函数 类 ， 有 为 整数 。 
如 果 下 面 的 条 件 成 立 ， 我 们 就 说 示 有 一 个 大 小 为 上 的 压缩 机 制 : 

对 于 所 有 m9， 存在 A:2Z"->[m 上 | 以 及 B.Z* 一 HU 使 得 对 于 所 有 hEHXNH， 如 果 我 们 将 任意 


形 如 (Zi， yi)， wets EE yn) 的 训练 集 输入 到 A, 形 如 (Zi ， Yi)» sery Er yi) 的 训练 
集 输入 到 B, RPA, =, eA MH, AD REB HHH, MARA LshN< 
Ls(h). 


下 面 的 引 理 表面 可 实现 情况 压缩 机 制 的 存在 意味 着 不 可 实现 情况 压缩 机 制 的 存在 。 

引 理 30.6 令 姑 是 一 个 二 分 类 问题 的 假设 类 ， 并 假定 在 可 实现 情况 下 和 其 有 一 个 大 小 为 
的 压缩 机 制 ， 则 姑 在 不 可 实现 的 情况 下 同样 有 一 个 大 小 为 上 的 压缩 机 制 。 

证 明 考虑 如 下 机 制 : 首先 ， 找 到 一 个 满足 ERM 的 假设 并 记 为 h。 然 后 ， 丢 掉 所 有 
错 分 的 样本 ， 之 后 在 未 被 丢弃 的 样本 上 应 用 可 实现 情况 的 压缩 机 制 。 将 该 机 制 的 输出 记 为 
h'， 则 必定 在 未 被 丢弃 的 样本 上 分 类 正确 。 由 于 hh 在 丢弃 的 样本 上 均 分 类 错误 ， 因 此 在 
那些 被 丢弃 样本 上 的 错误 不 会 比 h 更 多 。 故 而 也 是 一 个 满足 ERM 的 假设 。 加 


30.2 例子 


在 如 下 例子 中 ， 我 们 将 介绍 一 些 对 于 二 分 类 问题 的 假设 类 的 压缩 机 制 。 引 理 30. 6 已 
表明 我 们 此 时 只 需 关 注 可 实现 情况 即 可 。 因 此 ， 为 了 表明 一 个 确定 的 假设 类 有 压缩 机 制 ， 
需要 找到 相应 的 A，B 和 LANS., 


30.2.1 平行 于 轴 的 和 矩形 


注意 到 这 个 假设 类 是 不 可 数 无 穷 多 的 。 不 过 该 假设 类 有 一 个 简单 的 压缩 机 制 。 考 虑 一 个 
算法 A: 对 于 每 一 维 ， 选 择 在 这 一 维度 有 极 值 的 两 个 正 样本 。 定 义 B 是 一 个 函数 : (根据 找 
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到 的 样本 ) 返 回 一 个 最 小 包 络 和 矩形。 那么 对 于 二 24， 在 可 实现 情况 下 ，Ls(B(A(S))) 二 0。 


30. 2.2 半空 间 


今 T 二 RR， 并 只 考虑 齐 次 半空 间 ， 即 {x psign((w, x)):wER’}. 

压缩 机 制 : 

不 失 一 般 性 ， 假 定 所 有 标签 都 是 正 的 (和 否则， 用 yx: 蔡 换 xi)。 首 先 ， 算 法 A 
Eix ，…,zn)} 的 西 包 中 找到 一 个 范 数 最 小 的 向 量 加， 此 向 量 可 由 样本 中 的 4 个 点 的 凸 组 
合 表 出 (之 后 会 看 到 这 种 表 出 总 是 可 行 )。A 的 输出 就 是 这 4d 个 点 。 而 后 算法 B 根据 这 4 个 
点 得 到 w， 并 将 w 作为 样本 凸 包 中 有 着 最 小 范 数 的 点 。 

接 下 来 我 们 证 明 这 的 确 是 一 个 压缩 机 制 。 由 于 样本 是 线性 可 分 的 ，(x，…，x;) 将 不 
会 包括 原点 。 现 在 考虑 凸 包 中 距离 原点 最 近 的 点 多。( 这 个 点 是 唯一 的 ， 因 为 该 点 是 原点 
在 凸 包 上 的 欧 氏 投影 。) 我 们 认为 w 分 开 了 原 数 据 ? 。 为 了 说 明 这 一 点 ， 采 用 反 证 法 ， 假 定 


2 
IITE i, Aw, x), SF a= ee 00, 1), 取 w 二 (1 一 a)w 十 ax;， 则 


w BEDE H. 
lw = CQ —a)? lwl? +e |x; 1? + 2a — a) (w,x;) 
< (1—a)?| wll? +a? x; ||? 
_ |x‘ twl’? +1? lel 
(|| wl? + lx; (1? >? 
lx; ll? wl? 


wl lx 


=lel*. Tas 
w xl + I 
< | wll? 

这 样 就 产生 了 了 矛盾。 

因此 我 们 可 以 说 明 这 样 的 w 也 是 满足 ERM 的 。 最 后 ， 由 于 ww 在 样本 凸 包 中 ， 根 所 
Caratheodory 定理 可 得 w 也 在 该 多 边 形 ( 译 者 注 : 指 样本 凸 包 ) 中 由 a 十 1 个 点 构成 子 集 的 
凸 包 中 。 更 进一步 地 ，u 的 最 小 性 要 求 w 必须 在 多 边 形 的 表面 意味 着 它 可 以 由 4 个 点 
的 凸 组 合 表 出 。 

接 下 来 还 需要 说 明 w 也 是 原点 在 由 d 个 点 定义 的 多 边 形 上 的 投影 ， 这 是 必然 的 ，_- 
方面 ， 小 的 多 边 形 是 大 的 多 边 形 的 子 集 ， 因 此 原点 在 小 的 多 边 形 上 的 投影 在 范 数 上 不 会 变 
更 小 ; 另 一 方面 ，w 本 身 是 一 个 有 效 解 。 由 于 投影 是 唯一 的 ， 命 题 得 证 ， 


30. 2.3 可 分 多 项 式 


SX=R 并 考虑 类 : x Psign(p(x))， HH pEr 阶 多 项 式 。 
注意 到 p(xz) 可 以 写作 (w，y(x))，y(x) 表 示 所 有 阶 数 不 超过 r 的 单项 式 。 因 此 ， 为 
P(x) 构建 压缩 机 制 的 问题 约 简 成 为 R*" 上 的 半空 间 构 建 压缩 机 制 ， 其 中 d'=), 


30.2.4 间隔 可 分 的 情况 
假定 一 个 训练 集 可 以 由 间隔 y 分开。 感知 器 算法 保证 了 收敛 到 一 个 在 整个 训练 集 都 不 


加 可 以 证 明 w 就 是 最 大 间隔 解 的 方向 。 
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发 生 错 误 的 解 至 多 需要 去 次 迄 代 ，。 因此 ， 我 们 可 以 得 到 一 个 大 小 为 k 过 1/7 的 压缩 机 制 。 


30.3 文献 评注 


压缩 机 制 及 其 与 学 习 的 关系 由 Littlestone 和 Warmuth(1986) 引 出 。 如 我 们 之 前 所 述 ， 
如 果 一 个 类 有 压缩 机 制 那么 它 便 是 可 学 习 的 。 对 于 二 分 类 问题 ， 结 合 学 习 的 基本 定理 可 
知 ， 这 样 的 类 有 一 个 有 限 的 VC 维 。 男 一 个 方面 ， 是 否 每 个 有 限 VC 维 的 类 都 有 有 限 大 小 
的 压缩 机 制 还 是 一 个 未 知 的 问题 ， 该 问题 由 Manfred Warmuth 提出 并 且 到 现在 仍 未 解 ( 见 
Floyd (1989), Floyd&Warmuth (1995), Ben-David&Litman (1998), Livni&Simon 
(2013)). 
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PAC- Wl 叶 斯 





最 小 描述 长 度 (MDL) 和 奥 卡 姆 剃刀 原则 虽然 允许 存在 一 个 可 能 很 大 的 假设 类 ， 但 定 
义 了 假设 分 层 并 且 倾 向 选择 在 分 层 中 出 现在 更 高 层 的 假设 。 在 这 一 草 ， 我 们 将 阐述 PAC - 
贝 叶 斯 法 来 将 上 述 概念 推广 。 在 PAC - 贝 叶 斯 中 ， 先 验 知识 通过 给 假设 类 定义 先 验 分 布 来 
表达 。 
31.1 PAC- 贝 叶 斯 界 

在 MDL 机 制 中 ,我们 在 类 的 假设 中 定义 一 种 分 层 。 现 在 ,分 层 以 假设 类 XH 上 的 先 验 
分 布 的 形式 来 表达 。 这 就 是 说 ,我们 为 每 一 个 假设 EX 分 配 了 一 个 概率 (如 果 Z 连 续 便 是 
概率 密度 )P(h) 宇 9， 并 且 将 POEK h 的 先 验 得 分 。 根 据 贝 叶 斯 推理 ， 学 习 算法 的 输出 
不 一 定 是 一 个 单一 假设 ， 而 可 以 是 给 假设 类 ?输出 一 个 后 验 概率 分 布 ， 记 为 Q。 在 监督 学 
习 问 题 中 ,假设 类 ZK 包含 了 从 到 站 的 函数 ， 那 么 Q 可 以 被 认为 是 定义 了 如 下 随机 预测 的 
规则 。 一 旦 得 到 一 个 新 的 样本 x， 我 们 根据 Q 随机 地 挑选 假设 h€EX 并 预测 得 到 h(x)。 我 
们 将 Q 在 一 个 样本 z 上 的 损失 定义 如 下 : 

£(Q,z) = ,BLeCh, x) 
由 于 期 望 是 线性 的 ，Q 的 泛 化 误差 和 训练 误差 可 以 写作 : 
oQ = BILo] 和 Ls(Q = BLLs(h)] 

下 面 的 定理 根据 Q 和 先 验 分 布 之 间 的 K-L(Kullback-Leibler) 散 度 告诉 我 们 Q 的 泛 
化 误差 和 经 验 误差 的 差异 是 可 以 用 界 来 约束 的 。K-L 散 度 是 描述 两 个 分 布 的 差异 的 一 种 自 
然 的 度量 。 该 定理 表明 如 果 我 们 想 要 最 小 化 Q 的 泛 化 误差 ， 应 该 同时 最 小 化 Q 的 经 验 误 
差 以 及 QQ 与 先 验 分 布 之 间 的 K-L 距离 。 我 们 之 后 将 说 明 在 某 些 情 况 下 这 个 想法 是 如 何 导 
出 正则 风险 最 小 化 原则 的 。 

定理 31.1 令 D 为 样本 域 Z 上 的 任意 分 布 。 令 XH 是 一 个 假设 类 ，L:HXZ>[0，1] 为 损 
失 通 数 。 令 忆 是 入 上 的 先 验 分 布 ， 6E (0，1)。 则 对 于 根据 分 布 D 采 样 得 到 独立 同 分 布 的 训 
BR SS= {zs +s Zm MTAHAAHW DA Q( 尽 管 与 S 有关)， 以 至 少 1 一 6 的 概率 有 下 


ARS: 
Lp(Q) < Ls(Q) +, /RP) + Inm/6 
2(m— 1) 


def 
D(Q|P) = EnA /Ph))] 
A Kullback-Leibler HÆ., 


证 明 ”对 任意 函数 f(S)， 根据 马尔 可 夫 不 等 式 ，: 
PL/(S) Se] = Pe Se] < Ble I (31.1) 
€ S e . 


其 中 
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& A(h) 二 Lp (h) 一 Ls(h)， 接 下 来 我 们 将 利用 式 (31. 1) 并 选择 如 下 哨 数 : 
f(S) = sup(2(m—1)) E (AK) — DQIP)) 
接 下 来 ,我 们 界定 EsLe*”j]。 主 要 的 技巧 在 于 用 一 个 不 依赖 Q@ 但 是 依赖 先 验 概率 P 
的 表达 式 来 求 4(S) 的 上 界 。 即 固定 S 并 注意 到 由 D(QIP ) 的 定义 可 以 得 到 ， 对 于 所 有 的 
QA FARZ: 
2(m—1) B (AA)? —DQIP)= E [Ince Ph)/Qh))] 


g ia p P(h)/Q(h) ] 


一 ]n perma] (31. 2) 
其 中 不 等 式 部 分 根据 詹 生 不 等 式 以 及 log 函数 的 止 性 得 出 。 因 此 ， 
Ele" ] < E nE a (31, 3) 


这 个 表达 式 的 右 半 部 分 使 我 们 可 以 调换 两 个 求 期 望 的 顺序 (因为 已 是 一 个 先 验 分 布 ， 
且 不 依赖 于 样本 S)， 因 此 ， 
Ele] < EB, Ble ] (31. 4) 
接 下 来 ， 我 们 断言 对 于 所 有 h ABLED] <m, HTAA, REE Hoet 
fding 不 等 式 ， 即 
PLAC) 之 e] 过 Ee 


这 意味 着 Bs[ezo 一 Da ]<<m( 见 练习 31. 1) 。 将 该 式 与 式 (31. 4) 代 入 式 (31. 1) 可 以 得 到 


PLf(S) > lee (31.5) 
将 上 式 右 半 部 分 与 6 对 应 ， 令 e 二 ln(m/6)， 故 而 我 们 得 到 ， 对 于 所 有 Q， 以 至 少 1 一 5 


的 概率 有 
2(m—1) E, (Ath))? — D(Q\P) <e = ln(m/®) 


重新 排列 不 等 式 的 顺序 并 再 次 利用 詹 生 不 等 式 ( 注 意 到 函数 xz? 是 凸 的 ) 我 们 最 终 得 到 
(EAW) < B (ath)? < Bod) + DQIP) (31.6) m 


2(m— 1) 
评注 (正则 化 ) PAC- 贝 叶 斯 界 引 出 如 下 学 习 规 则 : 
给 定 一 个 先 验 已 ， 返 回 一 个 后 验 Q， 并 最 小 化 如 下 函数 ; 


La (Q) +, [ZR P) t Innò [P> + Inm/ð (31.7) 
(m— 1) 


这 个 规则 与 正则 风险 最 小 化 原则 很 像 。 即 ， 我 们 需要 最 小 化 Q 在 样本 上 的 经 验 损 失 以 
KQ 5P 之 间 的 K-L 距离 。 


31.2 文献 评注 


PAC- 贝 叶 斯 界 最 早 由 McAllester 于 1988 年 提出 。 亦 见 McAllester( 1999), McAll- 
ester(2003), Seeger(2003), Langford& Shawe-Taylor(2003), Langford( 2006) 。 


31.3 练习 
31.1 $ XE-A, EPX] Ke, TERRE E] <n, 
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31.2 1) 假定 rw 是 一 个 有 限 假 设 类 ， 并 认为 上 的 假设 服从 均匀 分 布 ， 设 后 验 为 对 于 某 些 
假设 hs，Q(hs) 二 1， 对 于 其 他 假设 hEXHK，Q(h) 二 0， 试 证 下 式 成 立 : 


Ln Che) < Beth + MOHT + Intrn/d) 


并 将 该 式 与 我 们 用 一 致 收敛 得 到 的 界 做 比较 。 
2) 用 PAC- 贝 叶 斯 界 得 到 一 个 界 ， 它 类 似 第 7 章 给 出 的 奥 卡 姆 界 。 
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引 理 A.1 4a>0, WA Xz 宇 2alog(a) 过 x 之 alog(x)。 进 一 步 ，X 二 alog(X) 的 必要 条 
件 是 Xx 二 2alog(a)。 
证 明 首先 注意 ， 对 于 aE€(0, Ve]，Xx 宇 alog(x) 显 然 成 立 ， 从 而 引 理 的 结论 成 立 。 对 


于 a>Ye， 考 察 函 数 FCz) 王 zx 一 alog(Zz)。 其 导数 为 f (z) 王 1 一 a/z。 于 是 对 于 >a, SK 
是 正定 上 且 递 增 的 。 此 外 ， 
f (2alog(a))= 2alog(a) — alog(2alog(a) ) 
= 2alog(a) — alog(a) — alog(Zlog(a)) 
= alog(a) — alog(2log(a)) 
再 由 a—2log(a)>0 对 所 有 的 a>0 均 成 立 ， 从 而 引 理 得 证 。 


引 理 A.2 4all H 5 二 0。 则 2 —4alog(2a)+2b>2Zalog(x) +b, 


WEAR ”只 须 证 明 zx 之 4alog(2c) 十 22 意味 着 XxX 宇 2alog(x) 目 2 2b, M FIRE a 宇 1， 容 
易 得 到 zx 之 20。 此 处， 由 2>>0 可 知 xX 宇 4alog(2a)， 再 由 引 理 A. 1 可知 xz 宇 2alog(x)。 引 理 
得 证 。 F 

引 理 A.3 令 和 是 一 个 随机 变量 ，Z ER 是 一 个 标量 。 假 定 存在 wa 二 0 使 得 对 于 所 有 
t>0, A PL|X—2'|>1]<2e°° , MA, BL|X—2z'|]<4a. 

证 明 Xt FPA A i= 1, By ee 4 ti = ai. 由 于 如 是 单调 递增 的 ， 可 知 


2 tPL| X—2'|> t] Æ EL|X—2'| ] 的 上 界 。 由 此 及 引 理 的 假设 ， 有 EL|X—2'|J]< 


2a Dy ic“ 。 引 理 结论 由 如 下 不 等 式 得 到 


> joe = bY E +| redr <—1.8+107 <2 m 


i=] 


引 理 A.4 令 和 是 一 个 随机 变量 ，Z ER 是 一 个 标量 。 假 定 存 在 4a 之 0 Fe be 使 得 对 
FHA t>0, A PU X— r'| >t] 2b tA, RA, EL| X—x | ] 委 c(2 十 Vlog(b) ) 。 


证 明 对 于 所 有 的 i=l, 2, =, & t:=ali+ Vlog(b)). 由 t; 是 单调 递增 的 ， 可 知 
EL |X —2'|]<a Vlog) + Xn PEIX- r> t] 
由 引 理 中 假设 ， 有 7 


Dt PLX =r | | 2ab >} G+ J log (bh) ) et Moa” 
a. i=] 


Fh ag 
= ze TYP dr 


zo | 
1+ vlog(b) 


结合 上 面 两 个 不 等 式 ， 引 理 得 证 。 


= 2 fo 


zaf 


Jlog(h) 


J log) 
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(y+ De: 7 dy 


(h) 


ye? dy 


(b) 


= 2ab |—e” "Tras 
= 2ab/b = 2a 


引 理 A.5 假设 m，d 是 两 个 正 整 数 且 dm 一 2， 那 么 


> 


k=0 


m 


k 


\< 


(7) 


证 明 我们 将 采用 归纳 法 来 证 明 本 引 理 。 对 于 d 一 1， 等 式 左边 等 于 1 十 mx， 
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等 式 右边 


等 于 em， 于 是 结论 成 立 。 假 定 结论 对 于 d 成 立 ， 我 们 现在 来 证 明 结 论 对 于 d 十 1 moar. FA 


归纳 假设 ， 有 


$ g 
人 


AAS 


根据 Stirling 不 等 式 ， 进 一 ; 


人 


| A | 


人 


2 


其 中 ， 最 后 一 个 不 等 式 由 假设 


(FT 


O 人 
二 SS 


T) 


~N 


加 
p 


SR NIE SR SR SS 


xr 


dtl 


这 证 明了 我 们 归纳 的 结论 。 


a 
s 


A 


+\ 
(1 
(1 
‘i 
i+ 


有 


A 


y Pri a 


m 


ati) 


+ 


) (m—d) 


+ 


e 


e 





(dF Dal) 


(d+1) v2rd (d/e)* 


(m—d) 


a | 


a> 


n a e 


a 


) d+1 


入 


o HB 


Cn 
£ 








面 ， 
| 


E titter 全 Vv 2nd 


d 


1 Wet 


j 


1 
FID 


m(m— 1)(m — 2)***(m— a) 
(d+1)d! 


| 


370 


286 


HRA 技术 引 理 


引 理 A.6 对 于 所 有 ACR, 有 


WERA 


于 是 ， 有 


因为 








M 
< 
| 

Me 
NN 


son} 


n 


(2n)! 2"! 对 所 有 nO 成 立 ， 从 而 证 明 完 成 
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测度 集中 度 





假设 Zis es Zma 为 一 列 独立 同 分 布 随机 变量 ,均值 为 xy。 强大 数 定 律 表明 ， 当 m 趋 
于 无 穷 时 ， 经 验 平均 值 一 > Z: 以 概率 1 收敛 于 期 望 值 xy。 测度 集中 度 不 等 式 量化 了 当 m 
为 有 限 值 时 ， 经 验 平均 值 相对 于 期 望 值 的 偏差 。 


B. 1 马尔 可 夫 不 等 式 
首先 介绍 马尔 可 夫 不 等 式 。 假 定 Z 是 一 个 非 负 随机 变量 ，Z 的 期 望 可 以 写 为 
E[Z] 一 | PEZ > xz]dz (B. 1) 
由 PLZ 宇 zj 单调 非 增 ， 得 到 
Va>0, ELZ]>|_ PLZ>zxJdr>| PILZ>aldr=aP[Z>a] (B.2) 
整理 上 式 便 得 到 马尔 可 夫 不 等 式 : 
Va>0, P[Z>a]< HZ (B. 3) 
对 于 取 值 于 L0，1 的 随机 变量 ， 其 马尔 可 夫 不 等 式 如 下 : 
引 理 B.1 设 Z 是 一 个 取 值 于 [0，1j] 的 随机 变量 。 假定 妈 [Z] 二 uy， 那么 对 于 任意 的 
a€(0, 1), F | 
PLZ > l=—al > yo 
这 表明 对 于 任意 的 a€E (0，1)， 有 
PLZ >a] >4—"Sy-a 


证 明 @ Y=1—Z, WY 是非 负 随 机 变量 ， 且 ELYj]==1 一 BL2Zj= 二 1 一 y。 由 关于 Y 的 马尔 


可 夫 不 等 式 ， 有 
HZ ima] =M= aa] = y aag E lz 
所 以 ， 
PLZ >1—a]>1-*—#=44 = à 


a 


B.2 切 比 雪夫 不 等 式 
对 随机 变量 (Z 一 防 (CZ)): 应 用 马尔 可 夫 不 等 式 ， 就 得 到 了 切 比 雪夫 不 等 式 ， 
Va>0, PÜ|Z—ECZ]|>a]= PKZ- EZ? >e]< V Ba 


其 中 Var[Z]= 二 EL(2Z 一 EE(2))?] 是 Z 的 方差 。 
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考察 随机 变量 二 >，Z, 。 由 于 Zi. + Zn 独立 同 分 布 ， 容 易 验证 


Var| 二 3 Li |= Ver Zi] 


应 用 切 比 雪夫 不 等 式 ， 有 如 下 结论 ; 
引 理 B.2 BZ, o, Zn 是 独立 同 分 布 随机 变量 ， 假 定 到 [Z,] 一 / AVarlZI<1, A 


么 对 于 任意 的 SGE(0，1)， 
Isir fi 
EDZ- 
成 立 的 概率 大 于 1 一 6。 
证 明 由 切 比 雪夫 不 等 式 ， 对 于 所 有 的 a>0, F 
这 Var[Z 
[lia] A 


ma 


令 上 式 右边 为 6 求解 a， 便 得 到 引 理 结论 。 ™ 

我 们 已 经 看 到 ， 经 验 平 均值 相对 于 期 望 值 的 偏差 是 随 着 m 多 项 式 下 降 的 。 试 图 获得 更 
快 的 下 降 速度 ， 是 有 可 能 实现 的 。 事 实 上 ， 在 下 面 几 节 中 ， 我 们 推导 出 偏差 的 上 界 是 呈 指 
数 下 降 的 。 


B. 3 切 尔 诺 夫 界 

假设 Zi, +, Zn 是 独立 的 伯 努 利 变量 ， 其 中 对 任意 i,P[Z==1]=p, 且 P[Z =0]= 
1 一 加 。 & p= >, a HZ > Z;。 利 用 指数 函数 的 单调 性 和 马尔 可 夫 不 等 式 ， 对 于 任意 
i>0, A 


tZ 
PLZ > O +8)p] = Ple? > rc on (B. 5) 





接 下 来 ， 
ELe?]= Ele] = ef [Te | 
= I] Ble” 由 独立 性 
= [| Ge +a—prde 
= []d+pce—1) 
x [le Al lta2<e 


二 =- 
= gt 


结合 上 式 及 式 (B. 5) 并 选取 t=logd +a), A 
引 理 B. 3 假设 Zi, A. Laie 是 独立 的 伯 努 利 变量 ， 其 中 对 任意 z PLZ;=1]=p, E 


PLZi=0|=1—p,. & P= 2 p: AZ= 5) 2Z,。 那 么 对 于 任意 的 6j>0， 有 
7=] i=] 
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Zp 


其 中 ， 
hO = (1+ 6) log +6) — 


利用 不 等 式 h(a) 2a? /(2+20/3), A 
引 理 B.4 在 引 理 B.3 的 假设 下 ， 还 能 得 到 如 下 结论 : 
PEZ > (1+)p] < em 
另 一 方面 ， 类 似 可 得 
PLZ < (1—8)p] = P Z< aap] = Ple*®# ce] < BED) (B.6) GH 


ep 1—d) tp 


Ble? ]= Ele] = EL] e*] 
= Il Ele: | 由 独立 性 
= [atm 


< enm Al l+2<e 
_ ee 
令 t= 一 log(1 一 6)， 有 
PIZ < (1— p< mr = em™ 
容易 验证 h( 一 6) 宇 h(6)， 从 而 得 到 
引 理 B.5 在 引 理 B. 3 的 假设 下 ， 还 能 得 到 如 下 结论 : 
P[Z < (1 一 5) L PO em < et 


B.4 Hoeffding 不 等 式 
引 理 B. 6(Hoeffding RFX) 假设 Z1，…，Z 是 一 列 独立 同 分 布 随机 变量 ， 本 


12 
m 2a >o MHELZ]=p 且 Pla<Z,<b]=1 对 所 有 i 成 立 。 那 么 对 任意 e 汪 0 有 


pf | 二 2 -pl>e]< < 2exp(— 2me* / (b—a)?*) 


证 明 记 Xi 一 Z 一 B[Z] A X= 2 Xi。 由 指数 函数 的 单调 性 及 马尔 可 夫 不 等 式 ， 
对 任意 的 4 二 0 和 se>0， 有 上 
PCX >e] = PL Se] <e* EL] 
由 独立 性 假设 有 
E[ex] 一 到 [TeX] = II ele) 
再 由 Hoeffding 引 理 ( 引 理 B. 7) ， 对 任意 ;有 
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Bl ev/m] < fe 
因此 ， 


2 2 2 2 
A“ ha)" —y ta) 


PEX Se] < e% [] et =- oes 
& 4 二 4me/ (5 一 a)*， 则 
PL[X 宇 e] 过 Coe 
类 似 地 ， 对 变量 一 又 进行 讨论 ， 可 以 得 到 P[X 过 一 e] 之 e 记 57 。 联 合 上 述 两 个 结论 ， 
引 理 得 证 。 z 


5| #2 B. 7(Hoeffding 引 理 ) 设 久 是 一 个 随机 变量 ， 取 值 于 区 间 [a, 5] 且 满 足 B[ XX| 二 0。 
那么 ， 对 于 任意 的 A 二 0， 有 


2 Ona )2 


EL e* |<e 


证 明 FPR =e ARM, RTA TER ee, DA zrEela, bl, Æ 
ite) Saf Ce) + —a) FO) 
& a =?—€[o, 1], W 
b— # .. , #--f 
Se ci ne 
对 上 式 取 期 望 ， 又 由 ELXj] 二 0， 我 们 得 到 
|] Xe 十 ea 一 dan a ww 


= b —@ 
=—hp+rlog(1—p+ pe"), MERKATUEK e, A 

















记 h= A Cpm a), j= 


此 ,为 证 明 命 题 ， 只 须 证 明 i 根据 泰勒 公式 ， 又 LOSL' O0) =0 Fl L’(h) <4 
对 所 有 h 均 成 立 ， 可 以 得 证 。 回 
B.5 Bennet 和 Bernsein 不 等 式 


Bennet 和 Bernsein 不 等 式 与 切 尔 诺 夫 界 是 相似 的 ， 但 是 它们 对 于 任意 独立 随机 变量 
序列 都 成 立 。 这 里 只 给 出 结论 ， 略 去 证 明 过 程 ， 有 兴趣 的 读者 ， 可 以 查阅 Cesa-Bianchi 和 
Lugosi (2006). 


引 理 B. 8(Bennet RFA) 假设 ZI ，…，Z,， 是 一 列 独立 随机 变量 ， 均值 为 0， 且 
Zi 委 1 的 概率 为 令 


那么 对 任意 的 s 盖 0， 有 


其 中 
h(a) = (1+a)log(1+a)—a 
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根据 h(a) a? /(2+2a/3), RARSH: 

引 理 B. 9(Bernsein 不 等 式 ) 假设 Zi ，…，Z, 是 一 列 独立 随机 变量 ， 均 值 为 0。 如 采 
对 所 有 的 i，P(Z; 声 M) = 二 1 成立， 那么 对 于 任意 的 >0， 有 

m £2/ 
PLZ: = | < exp(— SEZ TYE, 

应 用 

可 实现 假设 PAC 理论 中 样本 复杂 度 的 下 界 正 比 于 1/e( 第 2 章 )， 不 可 实现 假设 PAC 
理论 中 样本 复杂 度 的 下 界 正比 于 1/e: (第 4 章 )， 而 Bernsein 不 等 式 可 以 用 来 描述 这 两 个 比 
率 之 间 的 情形 。 

5| B. 10 L:HXZ>[0, 1|IAMABR, ADA Z 上 任意 一 个 分 布 。 固 定 h， 对 任 
意 的 GE(0，1)， 我 们 有 


Lp [Ls(h) iem /2 ON: 175) ，2lo 1/9] <a 
S~D” m m 


2 p [Lo > Ls(h) + 2a ORCID + slog /8)) << g 


S~D” 
证 明 定义 随机 变量 a» =g WE a: =LCh, z;)—Lp(h). 注意 到 ELa; J=0 H 
Ela? |= EL£(h,z)’ |] — 2Lp (h) ELECh,z:)] + Lp (h)? 

= Et(h,z)’ |— Lp th)? 

< Et(h,z;)’ | 

Eth,z)|] = Lp(h) 
在 最 后 一 个 不 等 式 中 我 们 用 到 了 事实 4(A， zi) ELO, 1], 于 是 &(A， 4 ee 

对 ais tts am 使 用 Bernsein 不 等 式 ， 有 


Pl da > |< e(r aa) 


t?/2 )= 


Se arpa) Fa)? 


求解 出 :， 得 到 


2/2 pa 
mLp th) Tia UW 


> /2 — ELS, log(1/8)mLo Ch) = 0 
< 2 EGD + /2og1/mLo Ch) 
BZ D a 一 Ls(h) 一 Lp(h) 可 知 ， 在 不 小 于 1 一 8 的 概率 下 ， 


Ls(h) — Lp Ch) <2 180/0 | [Blog /DL h 
i 3m m 
这 就 证 明了 第 一 个 不 等 式 。 定 理 第 二 部 分 的 证 明 是 类 似 的 ， 这 里 略 去 。 
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B.6 Slud 不 等 式 
令 X 是 (m，p) 二 项 随机 变量 。 也 就 是 ，X 二 > Z, EPEN Z 等 于 1 的 概率 为 p， 


等 于 0 的 概率 为 1 一 p。 假 定 p= 二 (1 一 e)/2。Slud 不 等 式 (Slud，1977 46) #0, PLXS 
m/2j] 的 一 个 下 界 是 正 态 随机 变量 大 于 或 者 等 于 Vme”/(1 一 e?) 的 概率 。 下 面 的 引 理 可 由 正 
态 分 布 的 标准 尾 边 界 得 到 。 

引 理 B. 11 令 久 是 (m，p) 二 项 随机 变量 ， 且 p 二 (1 一 e)/2。 那 么 ， 


HX) 


B. 7 x 随机 变量 的 集中 度 
令 Xi， a fi Xp JE k 个 独立 同 分 布 的 正 态 随 机 变量 ; 也 就 是 对 于 每 个 Ly X;~N(O, 
1)。 随 机 变量 X 的 分 布 称 为 x? 分 布 ， 随 机 变量 Z= X7 +--+ X? 的 分 布 称 为 x? 分 布 ( 自 
由 度 为 k*)。 显 然 有 ELX?] 二 1 且 E[LZ] 二 &。 下 面 的 引 理 说 明 ，x 分 布 是 集中 在 其 均值 附 
近 的 。 
引 理 B. 12 $ Z 一 难 ， 则 对 于 任意 的 es 盖 0 有 
PZ < (1 — e)k] < e*s 
此 外 ， 对 于 任意 的 sE(0，3)， 我 们 有 
P[Z > A +k] < er" 
zE, YTE Eo, 3), F 
PEG — ek KZ +ek] S1— 26° 


证 明 Z= 2 X?， 其 中 X~N(0，1)。 为 了 证 明 引 理 ， 我 们 采用 切 比 雪夫 界 估计 
方法 。 对 于 第 一 个 不 等 式 ， 我们 首先 估计 ELe Ms JAR, Bh ASO 待定 。 由 于 er 去 1 一 
4 十 作对 所 有 的 a>0 RF, 我 们 有 


Ble wi] < 1— BLXt] +4 EXI 
利用 常见 不 等 式 ，E[LX?] 二 1 且 ELXt] 二 3， 及 事实 1—a<e-, 我 们 有 
Ble] <1—q+ Sa <a 
骨 由 切 比 雪夫 界 估计 方法 ， 我 们 得 到 
PL—-Z>— (1—e)k]= Pe > gee ] 
< elle Ele* | 
一 (lea (E[e*i J)" 


S52 
eCOM oat pr" 


| 从 


ee 
e ktgh 


令 4 二 e/3， 则 引 理 的 第 一 个 不 等 式 得 证 。 
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对 于 第 二 个 不 等 式 ， 我 们 知道 xi 分 布 的 矩 母 图 数 (moment generating function) RA 
如 下 表示 形式 : 


2 
由 此 及 切 比 雪夫 界 估计 方法 ， 我们 有 
PLZ SS 1 — Se] — ple Set ’* ] 
< e (la Ele? | 
— le (1 — 21) */2 
= @ DA oak _ ew 
其 中 ， 最 后 一 个 不 等 式 成 立 是 因为 1 一 a<e。 令 4 二 e/6( 即 4€ (0，1/2))， 我们 就 证 明了 
引 理 的 第 二 个 不 等 式 。 
最 后 ， 将 引 理 的 前 两 个 不 等 式 结合 起 来 ， 就 得 到 了 引 理 的 最 后 一 个 不 等 式 。 s 


vazi, E[e”]= 0—2 (B. 7) 
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Understanding Machine Learning: From Theory to Algorithms 





线性 代数 
C. 1 基本 概念 


本 章 ， 我 们 只 考虑 有 限 维 欧 氏 空间 上 的 线性 代数 。 回 量 是 指 列 癌 量 。 
给 定 两 个 4 维 向 量 w，vERR， 定 义 它们 的 内 积 


d 
(uv) = Du 


欧 氏 范 数 ( 即 6 范 数 ) 定 义 为 上 ul 二 Viw，u)。 我 们 也 会 用 到 4i 范 数 上 |i = > |u|, 


File... {ER |lu || . = max; | u; | 。 
欧 氏 空间 RR 的 子 空 间 是 关于 加 法 运算 和 数 乘 运算 封闭 的 隧 FE. HE u, ts u 
张 成 的 子 空 间 是 具有 如 下 形式 的 向 量 的 全 体 : 


其 中 对 于 所 有 的 i，a; ER. 

PERUS {ww ，*…，u} 是 独立 的 ， 如 果 对 于 任意 的 i，uw; AE Uu, s Ums 
Uii o W 张 成 的 子 空间 内 。 我 们 称 U 张 成 子 空间 V， 如 果 V 是 由 U 中 的 向 量 张 成 的 。 
V 的 维 数 就 定义 为 空间 V 的 基 的 数量 (可 以 验证 V 的 所 有 基 的 数量 都 是 相同 的 )。 我 们 称 U 
是 正 交集 ， 如 果 对 于 任意 的 i 了 7;， 部 有 (u;，w;) 二 0; 进一步 ， 称 U 是 标准 正 交集 ， 如 果 
对 于 任意 的 i， 都 有 llu;| =1. 

RERE ACR, A 的 域 定义 为 其 列 向 量 张 成 的 空间 ， 而 A 的 零 空 间 定义 为 满足 
Au=0 的 所 有 向 量 构成 的 子 空间 。A 的 秩 即 是 A 的 域 空间 的 维 数 。 

和 矩阵 A AF EE, WA A& ， 其 第 (z，7) 元 素 等 于 矩阵 矩阵 A BG. DIR. W 
R A 二 A ， 则 称 A 是 对 称 和 矩阵 。 


C.2 特征 值 与 特征 向 量 
对 于 和 矩阵 ACR, PIES Hu AA 对 应 于 特征 值 A 的 特征 向 量 ， 如 果 满 足 
Au = ìu 
定理 C. 1( 谱 分 解 ) wR ACR 4 ZMH, KAR, MABAR 的 一 组 标准 正 交 


Eo Bie S 本 使 每 个 u; 都 是 A 的 特征 向 量 。 进一步 ，A 可 以 表示 为 A 二 = gay, 
i=] 


其 中 心 是 与 Wi 相对 应 的 特征 值 。 这 等 价 于 A 二 UDUT， 其中, UMPAABAU, +, ug, 
$2 D tA FER, HRD, =A; 且 对 于 i 关 7 有 D;; 二 0。 此 外 ， 非 零 特 征 值 的 个 数 与 捧 
阵 的 秩 是 相等 的 ， 非 零 特 征 值 对 应 的 特征 向 量 张 成 的 空间 是 A 的 域 ， A 的 特征 
向 量 张 成 的 空间 是 A 的 零 空 间 。 
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C.3 正定 和 矩阵 
我 们 说 对 称 和 矩阵 ACR IEE, WER A 的 特征 值 都 是 正 的 。 如 果 A 的 特征 值 都 是 
非 负 的 ， 则 称 A 是 半 正 定 的 。 


ian 下 面 是 半 正 定性 的 等 价 定 义 : 
@ A 的 特征 值 都 是 非 负 

@ 对 于 任意 向 量 凡 ， hel Au) 20, 

o HE B144 A=BB'. 


C.4 奇异 值 分 解 


假定 矩阵 ACR" WRAr, 4 mAnit, EM C. 1 给 出 的 特征 值 分 解 不 再 适用 。 我 们 
将 给 出 矩阵 的 另 一 种 分 解 方式 ， 即 奇异 值 分 解 (Single Value Decomposition, SVD), 

对 于 单位 向 量 v€R" 和 ER ， 分 别称 它们 为 矩阵 A 对 应 于 奇异 值 c>0 的 右 奇 异 向 
量 和 左 奇 异 向 量 ， 如 果 满 足 

Av=ou, A'u =g 

我 们 首先 证 明 : 如 果 存 在 7 个 正 奇异 值 对 应 的 单位 正 交 奇异 同 量 ， 那 么 矩阵 可 分 解 为 A= 
UDV', AU Al V 的 列 癌 量 分 别 是 左 奇异 问 量 和 右 奇 异 问 量 ,，D 是 一 个 r+ Xr 对 角 和 矩阵 
且 对 角 线 上 的 元 素 为 奇异 值 。 


引 理 C.3 #HRACR’ HRA r, RE v1，*…，v, KHAN BAH SAR HY BER 
集 , Uys =, u, 是 由 人 的 左 奇异 向 量 组 成 的 单位 正 交集 ， Ois ***s ©, 是 对 应 的 奇异 值 。 那么 ， 
A= Sa 
i=] 


AU Rv Au; 为 列 向 量 的 短 阵 ，T 是 以 全 体 v, AIAR, DEHAEERE 
D;.; 二 a;:， 则 


A= UDV" 
证 明 FB A AY ar Sele] Bt AT 的 域 空间 (否则 ， 对 应 的 奇异 值 一 定 是 0) 。 因 
Ws vis =s v, 构成 了 A 的 域 空 s 回 的 一 组 单位 正 交 基 ， Re re Un 使 得 
Vis oy v, FIR SR 的 单位 正 交 基 。 定 义 B= > ca ， 则 只 需 证 明 Av;=Bv;. DS, 


4i>rit, Av;=0 和 Bo; =0 均 成 立 ; 对 于 i<r, 我 们 有 
Bo; = dou U;vj}0; = ot; = Av, 


其 中 最 后 一 一 个 等 式 是 由 奇异 向 量 的 定义 1 导 到 的 。 = 
下 面 的 引 理 考察 了 A 的 奇异 值 与 A"A 和 AA" 的 特征 值 之 间 的 关系 。 


引 理 C.4 wv 和 ww 分 别 是 A 的 右 奇异 向 量 和 左 奇异 向 量 ， 对 应 的 奇异 值 是 og; 这 等 价 于 ， 
v 是 A A 的 特征 向 量 ， 对 应 的 特征 值 是 了 ,而 Uo Av 是 AAT 的 特征 向 量 ， 对 应 的 特征 值 
也 是 oF « 
证 明 假定 co 是 A 的 奇异 值 ， 对 应 的 右 奇 异 向 量 是 uw， 那么 
A'Av = ATu = v 
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类 似 地 ， 
AATu = cAv = u 
另 一 方面 ， 如 果 4 关 0 BATA 的 特征 值 ， 对 应 的 特征 向 量 是 v， 则 由 ATA 是 半 正 定 的 


可 知 a>., SoA, u=0 Av, ME 


AL =A" Av = fv 一 = ov a 
最 后 ， 我 们 来 证 明 如 果 A iPr. WEA -个 单位 正 交 奇异 向 量 。 
引 理 C.5 4# AER Ar, ZL 


vi = See || Av || 
| I 
vs;= argmax | Avl 
vER :| wl] =1 
v.v > 一 (0 
v,= argmax | Aol 


veR: | vll =1 
Vi<ir.(veu ) 一 0 


则 v1，*…，V, 是 由 A 的 右 奇 异 向 量 组 成 的 单位 正 交集 。 


证 明 首先 注意 到 A 的 秩 是 >， 则 A 的 域 空间 是 一 个 ”~ 维 的 子 空间 ， 从 而 容易 验证 对 
于 所 有 的 ;二 1，…，r，|A4o;|>0 成 立 。 令 WER" Eh ATA 的 特征 值 分 解 所 确定 的 单位 
TE AChE. BY A A 二 WDW ， 其 中 D EXHAR, WE D1, 三 D;,s 宇 … 宇 0。 我 们 将 证 明 
vo s v, 是 A A 的 对 应 于 非 零 特征 值 的 特征 向 量 ， 再 由 引 理 C. 4 可 知 ， 是 A 的 右 奇异 
向 量 。 采 用 数学 归纳 法 进行 证 明 。 注 意 到 任意 的 单位 向 量 v 都 可 以 表示 为 w= 二 Wx， 其 中 ， 
x=W'v Hlx|=1. BA 


| Av |? = | AWx |]? = |WDWtWx |? = ||WDx ||? = || Dx ||? = X D?,2;? 
因此 ， 


pl pe Phat 
右 式 的 解 可 以 设 定 为 x 二 (1，0,，…，0)， 这 表明 vi BAA 的 最 大 特征 值 。 由 
| Av, | SOR] Al Di, >0 满足 归纳 假设 。 现 假定 结论 对 于 1 二 tr 一 1 成 立 。 则 任意 正 交 于 
vis =, v, Wiig v 都 可 以 表示 为 v= 二 Wx， 其 中 x 的 前 上 个 元 素 为 0。 由 此 ， 


max  ， | Av ||? = = max >) Di x? 
v: | vll=1, Vi<i,v v, =0 žl = 

右 式 的 解 为 满足 r =1 且 其 余 分 量 均 为 0 的 向 量 。 这 表明 vi ERRE W 的 第 (zt 十 1) 
列 。 最 后 ， ĦA || Av,+, | >0 可 知 ez 人 引 理 得 证 。 i 


推论 C. 6(SVD DAE H ACR” tkr, MA=UDV', 其 中 , DEWA 的 
非 零 奇异 值 为 对 角 元 素 的 +Xr st AEE, EEU, VANREDNA 的 左 奇异 向 量 和 
右 奇 异 向 量 。 此 外 ， 对 于 所 有 的 i，D3?; 是 ATA AEA, BEV 的 第 i 列 是 对 应 的 ATA 
Mapes, BU 的 第 i 列 是 对 应 的 AAT 的 特征 向 量 。 
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compression bounds( 压 缩 界 ) 359 
compression Scheme( 压 缩 方 法 ) 360 
computational complexity( 计 算 复 杂 度 ) 73 
confidence( 置 信和 度 )，18，22 
consistency( 一 致 性 ) 66 
Consistent( 一 致 性 算法 )，247 
contraction ljemma( 压 缩 引 理 ) 331 
convex(f4PE), 124 
function( ih KAO, 125 
set( p44), 124 
strongly convex( hl PE), 140, 160 
convex-Lipschitz-bounded learning (m H Y 4 RA 
界 学 习 )，133 
convex-smooth-bounded learning ( 同 光 滑 有 界 学 
村),，133 
covering numbers A mg, 337 
curse ofdimensionality( 维 数 灾 难 )，224 


D 


decision stumps( 决 策 柱 )，103，104 
decision trees( 决 策 树 )212 
dendrogram( 系统 树 图 )266，267 
dictionary learning F W33), 319 
differential set( 微 分 集 )，154 
dimensionality reduction( 4E Rx“) fa). 278 
discretization trick( 离 散 化 技巧 )，34 
discriminative( 判 别 式 的 )，295 
distribution free( 分 布 无 关 )，295 
domain( 域 )，13 
domain of exambles( 样 本 域 ) 26 
doubly stochastic matrix( 双 随机 和 矩阵 )，205 
duality( 对 偶 性 )，176 

strong duality( 强 对 个性 )，176 
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weak duality( $5 T(E). 176 
Dudley classes( Dudley #). 56 


= 


efficient computable( 可 高 效 计算 )，73 

EM( 期 望 最 大 化 算法 ) 301 

Empirical Risk Minimization, see ERM( 经 验 风 险 
最 小 化 ， 参 见 ERM) 

empirical error( 经 验 误差 )，15 

empirical risk( 经 验 风 险 )，15，27 

entropy (H), 298 
relative entropy FH XW), 298 

epigraph( 上 位 图 )，125 

ERM( 经 验 风险 最 小 化 )，15 

error decomposition( 误 差分 解 )，40，135 

estimation error( 估 计 误 差 )，37，40 

Expectation-Maximization, see EM (期 望 最 大 化 ， 
参见 EM) 


F 


face recognition, see Viola-Jones( 人 脸 识 别 ， 参 见 
Viola-Jones) 

feasible( 可 行 的 )，73 

feature( 特 征 ) 73 

feature learning( 特 征 学 习 )，319 

feature normalization( 特 征 归 一 化 )，316 

feature selection( 特 征 选 择 )，309，310 

feature space( 特 征 空 间 )，179 

feature transformation( 特 征 变 换 ) 318 

filters (YEYE ZE), 310 

forward greedy selection( 前 向 贪 禁 选择 ) 312 

frequentist( 频 率 学 派 )，305 


G 


gain 增益 215 

GD, see gradient descent(GD， 参 见 梯度 下 降 ) 
generalization error( 泛 化 误差 )，14 

generative models( 生 成 模型 ) 295 

Gini index( 基 尼 系 数 )，215 
Glivenko-Cantelli(Glivenko-Cantelli 类 )，35 
gradient( 梯 度 ) 126 

gradient descent( 梯 度 下 降 )，151 

Gram matrix(Gram 46/4), 183 

growth function( 生 长 函数 )，49 


H 


halfspace(-# 25 [4] ), 90 
homogeneous (JF RÁJ). 90, 170 
nonseparable( 不 可 分 的 )，90 
separable( 可 分 的 )，90 

Halving( 二 分 算法 )，247 

hidden layers( 隐 含 层 ) 230 

Hilbert space( 希 尔 伯 特 空间 )，18]1 

Hoeffdings inequality( Hoeffding 不 等 式 )，33，375 

holdout( 留 出 )，116 

hypothesis( 假 设 )，14 

hypothesis class( 假 设 类 )，16 


i i d. (独立 同 分 布 )，18 
ID3(ID3 算法 )，214 
improper, see representation independent (不 适当 
的 ， 人 参见 独立 表示 ) 
inductive bias, see bias( 归 纳 偏 置 ， 参 见 偏 置 ) 
information bottleneck( 信 息 瓶 颂 )，273 
information gain( 信 息 增 益 )，215 
instance( 实 例 )，13 
instance space( 实 例 空间 )，13 
integral image( 积 分 图 像 )，113 


J 


Johnson-Lindenstrauss lemma ( Johnson-Lindenstrauss 


引 理 ) 284 
K 


k-means(k 均值 算法 )，268，270 
soft k-means( 软 上 均值 算法 )，304 
k-median(k 中 位 数 算法 )，269 
k-medoids(k 中 心 点 算法 )，269 
Kendall tau( Kendall tau 损失 )，201 
kernel PCA( 核 PCA 算法 ) 281 
kernels( 核 ) 179 
Gaussian kernel( 高 斯 核 )，184 
kernel trick( 核 技巧 )，181 
polynomial kernel( 多项式 核 )，183 
RBF kernel( 限 制 基 函 数 核 )，184 


L 


label( 标 签 )，13 


Lasso(lasso 算法 )，316，335 
generalization bounds( 泛 化 界 ) 335 

latent variables( 隐 变量 )，301 

LDA( 线 性 判别 分 析 )，300 

Ldim( LittleStone 维 )，248，249 

learning curves( 学 习 曲 线 )，122 

least squares( 最 小 平方 )，95 

likelihood ratio( 似 然 函 数 比 )，201 

linear discriminant analysis, see LDA( 线 性 判别 分 
析 ， 参 见 LDA) 

linear predictor (RHET 4%)» 89 
homogeneous ( FF KAR PEAT AFB)» 90 

linear programming (Ze PERM), 91 

linear regression( 线 性 回归 )，94 

linkage( 链 接 ) ，266 

Lipschitzness( Fill #9 #7 RPE). 128, 142, 157 
subgradient( 子 梯度 ) 155 

Littlestone dimension, see Ldim (Littlestone 维 ， 
参见 Ldim) 

local minimurm( 局 部 极 小 ) 126 

Logistic regression #4 if # IBV). 97 

loss( 损 失 ) ，15 

loss function( 损 失 困 数 ) 26 

0-1 loss 0-1 Git PRO), 27, 134 

absolute value loss ( 44 Xt {A dit A K BW). 95, 
99, 133 

convex loss( {44K KO, 131 

generalized hinge loss(7Z 1¢ hinge ffi), 195 

hinge lossChinge fii). 134 

Lipschitzloss( Fil] #4 4 RRA KRO. 133 

log-loss( Xt Rn K ŽO. 298 

logistic loss (i $4 op titi K RKO., 98 

ramp loss (HIRR phi BO. 174 

smooth loss OGHA HIR RO, 133 

square loss( 平 方 损失 函数 ) 27 

surrogate loss( {CHEK pA). 134. 259 


M 


margin( [HJ hy), 168 

Markovs inequality 马尔 可 夫 不 等 式 )，372 
Massart lemma( 马 了 萨 特 引 理 )，330 

max linkage( 最 大 链接 )，267 

maximum a posterior( 最 大 化 后 验 )，307 
maximum likelihood( 极 大 似 然 法 )，295 
McDiarmid’ s inequality (# w i KK X HA S 


索 z = 307 


xk), 328 

MDL( 最 小 描述 长 度 ) 63, 65, 213 

measure concentration( 测 度 集 中 度 ) 32, 372 

Minimum Description Length, see MDL( 最 小 摘 述 
长 度 ， 参 见 MDL) 

mistake bound( 误 差 界 ) 246 

mixture of Gaussians( 高 斯 混合 模型 )，301 

model selection( 模 型 选择 )，114，117 

multiclass( 多 分 类 )，25。190，351 
cost-sensitive( 损 失 敏 感 的 )，194 
linear predictors( 线 性 分 类 郝 ) 193, 354 
multivector( 多 加 量 ) ，193，355 
Perceptron( 感 知 句 ) 211 
reduction( 4 faj), 190. 354 
SGD( 随 机 梯度 下 降 ) 198 
SVM( 文 持 回 量 机 )，197 

multivariate performance measures( 多 变量 性 能 度 
fit), 206 


N 


Naive Bayes( 朴 素 贝 叶 斯 )，299 
Natarajan dimension (H HAE), 351 
NDCG( 归 一 化 折扣 累积 增益 ) 202 
Nearest Neighbor( 最 近邻 )，219 
k-NN(k JEB), 220 
neural networks( 神 经 网 络 ) 228 
feedforward networks( 前 馈 神 经 网 络 )。229 
layered networks( 层 次 网 络 )，229 
SGD( 随 机 梯度 下 降 )，236 
No-Free-Lunch(“ 没 有 免费 的 午餐 ”) 37 
nonuniform learning( 非 一 致 学 习 )，59 
Normalized Discounted Cumulative Gain, see 


NDCG( 归 一 化 折扣 累积 增益 ， 参 见 NGCG) 
O 


Occam’s razor( #A-E RFI IJ), 65 

OMP( 正 交 匹 配 追 踪 )，312 

one-versus-all( 一 对 多 )，191，353 

one-versus-rest, see one-versus-all (一 对 剩余 ， 参 
见 一 对 多 ) 

online convex optimlzation( 在 线 凸 优化 ) 257 

online gradient descent( 在 线 梯 度 下 降 ) 257 

online learning( 在 线 学 习 )，245 

optimization error( 优 化 误差 )，135 

oracle inequality(( 神 论 不 等 式 )，145 


orthogonal matching pursuit, see OMP (JE 2@ Ac jE 
踪 ， 参 见 OMP) 
overfitting( 过 拟 合 )，15，41，121 


P 


PAC( 概 率 近 似 正 确 )，22 
agnostic PAC( 不 可 知 PAC)，23，25 
agnostic PAC for general loss( 广 义 损失 的 不 可 
AI PAC), 27 

PAC-Bayes( PAC - 贝 叶 斯 )，364 

parametric density estimation( 人 参数 密度 估计 )，295 

PCA( 主 成 分 分 析 ) 279 

Pearson’ s correlation coefficient (皮尔 森 相 关系 
数 )，311 

Perceptron( 感 知 器 ) 92 
kernelizedPerceptron( 核 化 感知 器 ) 188 
multiclass( 多 类 别 )，211 
online( 在 线 )，258 

permutation matrix( 置 换 矩 阵 )，205 

polynomial regression( 多 项 式 回 归 ) ，96 

precision( 精 确 度 ) 206 

predictor( $W] gs), 14 

prefix free language( 无 前 级 语言 )，64 

Principal Component Analysis, see PCA( 主 成 分 分 
HT. Æ PCA) 

prior knowledge( 先 验 知 识 ) 39 

Probably Approximately Correct, see PAC( 概 率 近 
似 正 确 ， 参 见 PAC) 

projection( 投 影 )，159 
projection lemma( 投 影 引 理 )，159 

proper( 完 全 )，28 

pruning( 剪 枝 )，216 


R 


Rademacher cornplexity( 拉 德 马赫 复杂 度 )，325 
random forests( 随 机 森林 )，217 
random projections( 随 机 投影 )，283 
ranking( 排 序 )，201 

bipartite( 二 分 )，206 
realizability( 可 实现 性 )，17 
recall( 召 回 )，206 
regression( 回 归 )，26，94，138 
regularization( 正则 化 )，137 

Tikhonov( Tikhonov 正则 化 )，138，140 
regularized loss minimization, see RLM( 最 小 化 正 


则 损失 ， 参 见 RLM) 
representation independent( 独 立 表 示 )，28，80 
representative sample( 代 表 性 样本 )，31，325 
representer theorem( 表 示 定 理 )，182 
ridge regression( 岭 回归 )，138 

kernel ridge regression( 核 岭 回 归 )，188 
RIP( 有 限 等 距 约束 )，286 
risk( 风 险 )，14，24，26 
RLM( 最 小 化 正则 损失 )，137，164 


S 


sample complexity( 样 本 复杂 度 )，22 
Sauer’s lemma( Sauer 引 理 )，49 
self-boundedness( 自 有 界 性 )，130 
sensitivity( 敏 感度 )，206 
SGD( 奇 异 值 分 解 )，156 
shattering( 打 藤 )，45，352 
single linkage( 单 连接 ) 267 
Singular Value Decomposition, see SVD( 奇 异 值 分 
解 ， 参 见 SVD) 
Slud’s inequality(Slud 不 等 式 )，378 
smoothness( 光 滑 性 )，129，143，163 
SOA( 标 准 优 化 算法 )，250 
sparsity-inducing norms( 稀 朴 诱导 范 数 ) 315 
specificity( 具 体 性 ) 206 
spectral clustering G*R), 271 
SRM( 最 小 化 结构 风险 ) 60, 115 
stability faze HE), 139 
Stochastic Gradient Descent, see SGD( 随 机 梯度 下 
降 ， 参 见 SGD) 
strong learning( 强 学 习 )，102 
Structural Risk Minimization, see SRM( 最 小 化 结 
构 风 险 ， 参见 SRM) 
structured output prediction( 结 构 输 出 预测 ) 198 
subgradient( 次 梯度 ) 154 
Support Vector Machines, see SYM( 支 持 向 量 机 ， 
参见 SVM) 
SVD( 奇 异 值 分 解 )，381 
SVM( 支 持 向 量 机 )，167，333 
duality( 对 偶 性 )，175 
generalization bounds( 泛 化 边界 )，172，333 
hard-SVM( 硬 SVM), 168, 169 
homogenous( 齐 次 情况 )，170 
kernel trick% K% I5), 181 
soft-SVM(4k SVM), 171 


support vectors( 支 持 癌 量 )，175 


target set( 目 标 集 合 ) ，26 

term frequency( 词 项 频率 )，194 
TF-IDF( 词 频 逆 文档 频率 ) 194 
training error( 训 练 误 差 )，15 
training set( 训 练 集 )，13 

true error( 真 实 误差 )，14，24 


U 


underfitting( 欠 拟 合 )，41，121 

uniform convergence( 一 致 收敛 性 )，31，32 
union bound( 联 合 界 )，19 

unsupervised learning( 无 监督 学 习 )，265 


索 引 309 


V 


validation( 验 证 )，114，116 
cross validation( 交 叉 验 证 )，119 
train-validation-test split (训练 验证 测试 拆 
IF)» 120 

Vapnik-Chervonenkis dimension, see( VC 维 ) 
dimension ( #¢ FF ) 

VC dimension( VC 4£), 43, 46 

version Space( 可 行 域 ) 247 

Viola-Jones(Viola-Jones 基 假 设 )，110 


W 


weak learning(§§77-J), 101, 102 
Weighted-Majority( 加 权 投 票 ) 252 
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